取消
顯示的結果
而不是尋找
你的意思是:

高驅動程序內存使用加載文件拚花

ramz
新的貢獻者二世

你好,

我使用pyspark和閱讀一堆鋪文件和做指望他們每個人。司機6 g - 8 g內存芽。

我的設置:

我有1驅動節點和2工人的集群節點(全部16核心128 GB RAM)。這是我的問題的簡化版本。

表= (“/ mnt /”、“/ mnt / b”,“/ mnt / c”。#我有大約30個這樣的表。資源描述的表:df = spark.read.parquet(台)df.cache()打印(df.count ())

30的表我加載兩個有2000萬行其他都是小的。

有什麼原因我的司機內存上升?

謝謝

Ramz

4回複4

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

你好,

請確認這裏大約正在處理的數據大小和DBR版本以及集群配置?

另外,您可以參考https://docs.m.eheci.com/clusters/cluster-config-best-practices.html檢查集群配置最佳實踐優化設置的最佳性能。

請讓我們知道這有幫助。

也請標記@Debayan你的下一個反應,將通知我,謝謝!

ramz
新的貢獻者二世

嗨@Debayan穆克吉,

得到處理的數據量大約是80 GB(所有表的組合)。這在工作節點的內存可用。我關心的是為什麼司機內存增加。我的理解是,司機應該不負載任何數據。它沒有數據被加載為什麼跳在內存中。

謝謝

Ramz

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

你好,司機負責運行工作負載。司機節點維護狀態信息的筆記本電腦連接到集群。司機節點還維護SparkContext,解釋所有的命令你在集群上運行從一個筆記本和一個圖書館,並運行Apache主坐標的火花引發執行人。因此它可能依賴。

Vidula_Khanna
主持人
主持人

嗨@ramz濕婆

謝謝你的問題!幫助你更好的,請花一些時間來檢查答案,讓我知道它是否最適合您的需要。

請幫助我們選擇最好的解決方案通過點擊“選擇最佳”如果它。

您的反饋將幫助我們確保我們提供最好的服務給你。謝謝你!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map