取消
顯示的結果
而不是尋找
你的意思是:

如何配置火花來調整輸出分區的數量後加入或groupBy嗎?

一舉
新的因素

我知道你可以設置“spark.sql.shuffle。分區”和“spark.sql.adaptive.advisoryPartitionSizeInBytes”。前不會與自適應查詢執行工作,而後者隻適用於第一個洗牌出於某種原因,之後,它隻使用默認的分區數量,例如#芯,因為沒有分區合並。

有辦法配置AQE調整分區,每個分區的數量不超過100 mb ?我隻看到它傾斜的分區可以做,但不是所有交換操作。

目前,我們必須關掉AQE為一個大的工作,因為它導致了100 +結核病泄漏。或者,我們也可以手動分區DataFrame每一次,但這不是很方便,容易出錯。

謝謝你!

0回答0
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map