02-28-2023下午12:56
我用threadpool執行者和並行運行的筆記本。然而,這些並行筆記本不使用執行人,所有負載會向司機節點為司機節點導致內存耗盡,最終崩潰。
並行的筆記本都是相同的,包括創造巨大的熊貓dataframes dataframes火花,並附加δ表。我缺少什麼?我如何重定向加載到執行器節點?
03-07-2023上午12點
@uzair穆斯塔法:使用threadpool執行人並行化執行筆記本可能不足以跨集群分發負載。當你使用threadpool執行者,所有線程都運行在相同的節點,也可能耗盡內存- >這是期望的結果。
解決你的問題,你可以嚐試運行每個筆記本作為單獨的進程和創建一個火花上下文內的過程。請嚐試使用Python中的“子流程”模塊為每個筆記本生成一個新進程。
在原帖子查看解決方案
03-12-202309:47點
嗨@uzair穆斯塔法
謝謝你的問題!幫助你更好的,請花一些時間來檢查答案,讓我知道它是否最適合您的需要。
請幫助我們選擇最好的解決方案通過點擊“選擇最佳”如果它。
您的反饋將幫助我們確保我們提供最好的服務給你。
謝謝你!
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。