06-25-202133我
我有在三角洲ADLS寫入的數據。據我所知三角洲也在檢查機關內部文件格式但當Iread不同格式的文件我有不同的記錄計數
spark.read.parquet ()
或
spark.read.format(δ).load ()
df = spark.read.format(δ).load(“數據”)df.count () > 200000 df = spark.read.parquet(“數據”)df.count () > 400000
正如你所看到的相當大的差異。
有什麼我誤解了三角洲vs拚花怎麼樣?
06-25-202134點
我認為你已經寫在三角洲兩次使用覆蓋模式
但三角洲版本數據格式——當你使用
覆蓋
之前,它不會刪除數據,它隻是寫入新文件,不要立即刪除文件——他們隻是標記為刪除清單文件,三角洲的用途。當你讀δ,它知道哪些文件被刪除,或不是,隻讀實際數據。的實際刪除數據文件當你執行真空三角洲湖上。
但是當你閱讀與拚花,它沒有刪除文件的信息,所以它讀取所有的目錄,所以得到兩倍的行。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。