取消
顯示的結果
而不是尋找
你的意思是:

達美航空合並文件大小控製

pantelis_mare
貢獻者三世

你好社區!

我有一個相當奇怪的問題在三角洲合並寫大文件(~ 1 gb)減緩我的管道。這裏有一些背景:

我有一個dataframe帳目更新幾個過去的日期。當前和最後一天包含大量的行(> 95%),其餘分布在舊天(約100個獨特的日期)。我的目標dataframe分區的日期。

我的問題是,當合並操作正在寫文件我最後寫2 - 3文件最大的約會分區,結果2 - 3文件大約1 gb。因此我的整個管道被這些文件的編寫,需要更長的時間比其他的。

我玩所有明顯的配置,如:

delta.tuneFileSizesForRewrites

delta.targetFileSize

delta.merge.enableLowShuffle

一切似乎都被忽略和文件保持在這種規模。

注意:DBR 10.0 / delta.optimizedWrites上運行。啟用設置為真

有什麼我錯過什麼?

提前謝謝你!

6個回答6

嗨@Pantelis Maroudis,

你還在尋求幫助來解決這個問題?

pantelis_mare
貢獻者三世

你好何塞,

我隻是跟著分裂2所以我有一個合並的合並,觸動許多分區,但幾行每個文件和觸動2 - 3的第二個分區但包含數據的構建。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map