取消
顯示的結果
而不是尋找
你的意思是:

Azure磚與ZORDER VM類型優化的一個列

NOOR_BASHASHAIK
貢獻者

親愛一族

我想檢查一下Azure磚VM的類型是最適合與ZORDER執行優化一個時間戳值(但字符串數據類型)約5000 +表的列在三角洲湖。

我選擇Standard_F16s_v2 1 6工人和司機。(>,這給了總計112 cpu, 185 GB內存,7571.4 GB OS磁盤存儲)。我們在9.1 LTS。下麵是一些信息關於CPU和內存使用量的樣子。在“存儲”選項卡的火花UI,我看不到任何緩存錯過但有很多洗牌讀“執行人”選項卡。工作是運行了7 +小時,仍然,我看到216活躍階段,219年等待階段(這個數字在不斷變化)。spark.sql.shuffle。分區設置為默認。

我的問題是:根據提供的信息,這係列VM最合適?同時,任何其他類型的優化,能做什麼呢?如果我去與最佳實踐洗牌分區值設置為2 *核心數量,默認值仍然適合。

圖像

圖像

圖像

圖像

5回複5

Hubert_Dudek1
尊敬的貢獻者三世

你的圖;其漂亮的(相對於其他那些我看到);看來你正確地利用您的集群。

您可以檢查在火花UI數據裝入內存泄漏——火花分區?

任何集群應該如果磁盤表分區大小大約是200 MB(最佳大小)。當然,你可以做基準測試。通常,新版本的機器快一點。

Tooptimizationstimzations表,你附加數據很好使用磁盤分區/日期或月。然後,做優化WHERE子句來限製這隻新分區。

你好休伯特,

在上麵# 3我把截圖中,有大量的洗牌讀嗎?這是需要檢查數據泄漏?

同時,請讓我知道我可以設置這個標誌——為你的表在磁盤分區大小200 MB(最佳大小)。

提前感激,謝謝。

jose_gonzalez
主持人
主持人

你好,

Standard_F16s_v2是一種計算優化機器。

另一方麵,對三角洲優化(裝箱和z值),我們建議Stabdard_DS_v2-series。同時,遵循休伯特的建議。

你好何塞,

謝謝你的快速回複。是的,我打算測試現在DdS_V5係列、DdS係列似乎是三角洲緩存加速,像其他DS係列似乎落在“通用”工作負載的機器。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map