親愛一族
我想檢查一下Azure磚VM的類型是最適合與ZORDER執行優化一個時間戳值(但字符串數據類型)約5000 +表的列在三角洲湖。
我選擇Standard_F16s_v2 1 6工人和司機。(>,這給了總計112 cpu, 185 GB內存,7571.4 GB OS磁盤存儲)。我們在9.1 LTS。下麵是一些信息關於CPU和內存使用量的樣子。在“存儲”選項卡的火花UI,我看不到任何緩存錯過但有很多洗牌讀“執行人”選項卡。工作是運行了7 +小時,仍然,我看到216活躍階段,219年等待階段(這個數字在不斷變化)。spark.sql.shuffle。分區設置為默認。
我的問題是:根據提供的信息,這係列VM最合適?同時,任何其他類型的優化,能做什麼呢?如果我去與最佳實踐洗牌分區值設置為2 *核心數量,默認值仍然適合。
你好休伯特,
在上麵# 3我把截圖中,有大量的洗牌讀嗎?這是需要檢查數據泄漏?
同時,請讓我知道我可以設置這個標誌——為你的表在磁盤分區大小200 MB(最佳大小)。
提前感激,謝謝。
你好何塞,
謝謝你的快速回複。是的,我打算測試現在DdS_V5係列、DdS係列似乎是三角洲緩存加速,像其他DS係列似乎落在“通用”工作負載的機器。