取消
顯示的結果
而不是尋找
你的意思是:

閱讀多個鋪下相同文件從_delta_log路徑

KKo
貢獻者三世

我有一個路徑_delta_log和3時髦。鑲花的文件。我想讀所有這些.parquet使用spark.read.format(δ).load(路徑),但我得到的數據隻有一個相同的文件。我不能讀取這些文件?如果是如何實現這一目標?

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

事實上有很多拚花文件並不意味著所有這些文件是“積極”。三角洲湖能做時間旅行,這意味著你可以回滾一個三角洲表之前的狀態。能夠做到這一點,它需要舊的數據。

這就是為什麼老數據沒有移除,你可以看到多個拚花文件不用於delta_lake的最新版本。

你可以刪除它們與真空命令:

https://docs.microsoft.com/en-us/azure/databricks/spark/latest/spark-sql/language-manual/delta-vacuu..。

在原帖子查看解決方案

5回複5

Kaniz
社區經理
社區經理

嗨@Kris柯伊拉臘!我的名字叫Kaniz,我這裏的技術主持人。很高興認識你,謝謝你的問題!看看你的同行在社區中有一個回答你的問題。否則我將盡快給你回電。謝謝。

werners1
尊敬的貢獻者三世

事實上有很多拚花文件並不意味著所有這些文件是“積極”。三角洲湖能做時間旅行,這意味著你可以回滾一個三角洲表之前的狀態。能夠做到這一點,它需要舊的數據。

這就是為什麼老數據沒有移除,你可以看到多個拚花文件不用於delta_lake的最新版本。

你可以刪除它們與真空命令:

https://docs.microsoft.com/en-us/azure/databricks/spark/latest/spark-sql/language-manual/delta-vacuu..。

KKo
貢獻者三世

@Werner Stinckens謝謝你的答複和解釋,這是有助於理解三角洲特性。

Kaniz
社區經理
社區經理

嗨@Kris柯伊拉臘,似乎你的問題得到解決。我們可以馬克@Werner Stinckens的解釋是最好的?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map