取消
顯示的結果
而不是尋找
你的意思是:

數據幀火花鋪vs三角洲:行不匹配

User16826994223
尊敬的貢獻者三世

我有在三角洲ADLS寫入的數據。據我所知三角洲也在檢查機關內部文件格式但當Iread不同格式的文件我有不同的記錄計數

spark.read.parquet ()

spark.read.format(δ).load ()

df = spark.read.format(δ).load(“數據”)df.count () > 200000 df = spark.read.parquet(“數據”)df.count () > 400000

正如你所看到的相當大的差異。

有什麼我誤解了三角洲vs拚花怎麼樣?

1回複1

User16826994223
尊敬的貢獻者三世

我認為你已經寫在三角洲兩次使用覆蓋模式

但三角洲版本數據格式——當你使用

覆蓋

之前,它不會刪除數據,它隻是寫入新文件,不要立即刪除文件——他們隻是標記為刪除清單文件,三角洲的用途。當你讀δ,它知道哪些文件被刪除,或不是,隻讀實際數據。的實際刪除數據文件當你執行真空三角洲湖上。

但是當你閱讀與拚花,它沒有刪除文件的信息,所以它讀取所有的目錄,所以得到兩倍的行。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map