你好社區!
我有一個相當奇怪的問題在三角洲合並寫大文件(~ 1 gb)減緩我的管道。這裏有一些背景:
我有一個dataframe帳目更新幾個過去的日期。當前和最後一天包含大量的行(> 95%),其餘分布在舊天(約100個獨特的日期)。我的目標dataframe分區的日期。
我的問題是,當合並操作正在寫文件我最後寫2 - 3文件最大的約會分區,結果2 - 3文件大約1 gb。因此我的整個管道被這些文件的編寫,需要更長的時間比其他的。
我玩所有明顯的配置,如:
delta.tuneFileSizesForRewrites
delta.targetFileSize
delta.merge.enableLowShuffle
一切似乎都被忽略和文件保持在這種規模。
注意:DBR 10.0 / delta.optimizedWrites上運行。啟用設置為真
有什麼我錯過什麼?
提前謝謝你!
嗨@Pantelis Maroudis,
你還在尋求幫助來解決這個問題?