解決:閱讀多個拚花相同文件從_delta_lo……-磚- 31025

KKo · ‎01-24-2022

我有一個路徑_delta_log和3時髦。鑲花的文件。我想讀所有這些.parquet使用spark.read.format(δ).load(路徑),但我得到的數據隻有一個相同的文件。我不能讀取這些文件?如果是如何實現這一目標?

werners1 · ‎01-25-2022

事實上有很多拚花文件並不意味著所有這些文件是“積極”。三角洲湖能做時間旅行,這意味著你可以回滾一個三角洲表之前的狀態。能夠做到這一點,它需要舊的數據。

這就是為什麼老數據沒有移除,你可以看到多個拚花文件不用於delta_lake的最新版本。

你可以刪除它們與真空命令:

Kaniz · ‎01-24-2022

嗨@Kris柯伊拉臘!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。

werners1 · ‎01-25-2022

事實上有很多拚花文件並不意味著所有這些文件是“積極”。三角洲湖能做時間旅行,這意味著你可以回滾一個三角洲表之前的狀態。能夠做到這一點,它需要舊的數據。

這就是為什麼老數據沒有移除,你可以看到多個拚花文件不用於delta_lake的最新版本。

你可以刪除它們與真空命令:

KKo · ‎02-24-2022

@Werner Stinckens謝謝你的答複和解釋,這是有助於理解三角洲特性。

Kaniz · ‎02-24-2022

嗨@Kris柯伊拉臘,似乎你的問題得到解決。我們可以馬克@Werner Stinckens的解釋是最好的?

磚