數據幀火花鋪vs三角洲:m行不……-磚- 19283

User16826994223 · ‎06-25-2021

我有在三角洲ADLS寫入的數據。據我所知三角洲也在檢查機關內部文件格式但當Iread不同格式的文件我有不同的記錄計數

spark.read.parquet ()

或

spark.read.format(δ).load ()

df = spark.read.format(δ).load(“數據”)df.count () > 200000 df = spark.read.parquet(“數據”)df.count () > 400000

正如你所看到的相當大的差異。

有什麼我誤解了三角洲vs拚花怎麼樣?

User16826994223 · ‎06-25-2021

我認為你已經寫在三角洲兩次使用覆蓋模式

但三角洲版本數據格式——當你使用

覆蓋

之前,它不會刪除數據,它隻是寫入新文件,不要立即刪除文件——他們隻是標記為刪除清單文件,三角洲的用途。當你讀δ,它知道哪些文件被刪除,或不是,隻讀實際數據。的實際刪除數據文件當你執行真空三角洲湖上。

但是當你閱讀與拚花,它沒有刪除文件的信息,所以它讀取所有的目錄,所以得到兩倍的行。

磚