你可以通過改變spark.sql.shuffle調整默認值200。分區配置以匹配您的數據量。這是一個樣本python代碼計算的值
但如果你有多個工作負載與不同的數據量,而不是手動為每個指定的配置,值得看AQE &自動最優化洗牌
AQE調整shufzfle分區號自動查詢的每個階段,基於map-side洗牌的大小輸出。所以隨著數據規模的增長或萎縮在不同階段,任務量將保持大致相同,既不太大也不太小。然而,AQE不會改變最初的默認分區號,所以如果你看到灑在你的工作你可以啟用自動優化設置< db_prefix > .autoOptimizeShuffle洗牌。啟用為true。
更多的細節在
//m.eheci.com/blog/2020/10/21/faster-sql-adaptive-query-execution-in-databricks.html
你可以通過改變spark.sql.shuffle調整默認值200。分區配置以匹配您的數據量。這是一個樣本python代碼計算的值
但如果你有多個工作負載與不同的數據量,而不是手動為每個指定的配置,值得看AQE &自動最優化洗牌
AQE調整shufzfle分區號自動查詢的每個階段,基於map-side洗牌的大小輸出。所以隨著數據規模的增長或萎縮在不同階段,任務量將保持大致相同,既不太大也不太小。然而,AQE不會改變最初的默認分區號,所以如果你看到灑在你的工作你可以啟用自動優化設置< db_prefix > .autoOptimizeShuffle洗牌。啟用為true。
更多的細節在
//m.eheci.com/blog/2020/10/21/faster-sql-adaptive-query-execution-in-databricks.html