高驅動程序內存使用加載文件-磚- 8163鋪

ramz · ‎03-07-2023

你好,

我使用pyspark和閱讀一堆鋪文件和做指望他們每個人。司機6 g - 8 g內存芽。

我的設置:

我有1驅動節點和2工人的集群節點(全部16核心128 GB RAM)。這是我的問題的簡化版本。

表= (“/ mnt /”、“/ mnt / b”,“/ mnt / c”。#我有大約30個這樣的表。資源描述的表:df = spark.read.parquet(台)df.cache()打印(df.count ())

30的表我加載兩個有2000萬行其他都是小的。

有什麼原因我的司機內存上升?

謝謝

Ramz

Debayan · ‎03-08-2023

你好,

請確認這裏大約正在處理的數據大小和DBR版本以及集群配置?

另外,您可以參考https://docs.m.eheci.com/clusters/cluster-config-best-practices.html檢查集群配置最佳實踐優化設置的最佳性能。

請讓我們知道這有幫助。

也請標記@Debayan你的下一個反應,將通知我,謝謝!

ramz · ‎03-12-2023

嗨@Debayan穆克吉,

得到處理的數據量大約是80 GB(所有表的組合)。這在工作節點的內存可用。我關心的是為什麼司機內存增加。我的理解是,司機應該不負載任何數據。它沒有數據被加載為什麼跳在內存中。

謝謝

Ramz

Debayan · ‎03-12-2023

你好,司機負責運行工作負載。司機節點維護狀態信息的筆記本電腦連接到集群。司機節點還維護SparkContext,解釋所有的命令你在集群上運行從一個筆記本和一個圖書館,並運行Apache主坐標的火花引發執行人。因此它可能依賴。

Vidula_Khanna · ‎03-31-2023

嗨@ramz濕婆

謝謝你的問題!幫助你更好的,請花一些時間來檢查答案,讓我知道它是否最適合您的需要。

請幫助我們選擇最好的解決方案通過點擊“選擇最佳”如果它。

您的反饋將幫助我們確保我們提供最好的服務給你。謝謝你！

磚