你好,
Databricks-AWS上運行,我有一個工作一個集群上運行3個工人,每個(r6i.large),是雙核啟用自動定量。
火花的工作有兩個階段:
(1)高度並行的,cpu密集型階段。這個階段需要15分鍾。
(2)non-parallelizable階段(隻有一個分區,所以星星之火任務)。這個階段需要45分鍾。
在第一階段,集群規模從1職工3和3工人充分利用了(6芯)階段的持續時間(15分鍾)。然後在第二階段,隻有一個工作節點活躍整個45分鍾,但磚不縮小我和集群有兩個節點完全閑置了45分鍾。
知道這是為什麼,我如何可以利用自動定量更成本有效的這種類型的工作?
謝謝!