取消
顯示的結果
而不是尋找
你的意思是:

創建一個火花DataFrame從一個非常大的數據集

炭的
新的貢獻者二世

我想創建一個DataFrame使用火花但我有一些問題我使用的數據量。我做了一個通過多個API調用與超過100萬個條目列表。高於閾值的列表spark.rpc.message。最大容量和使用廣播也太大。我一直在讓伯父等使用大量內存錯誤。所以,我創建了兩個列表從原始列表中的數據。當我試圖創建DataFrame再次spark.rpc.message規模還是太大。最大容量,使用32重新分區。我endgoal加入兩個表在一個臨時視圖,然後寫信給鋪PowerBI所以我能得到所有的數據報告。

5回複5

saipujari_spark
價值貢獻
價值貢獻

@charry

看看這個KB文章,這將有助於解決這個問題。

https://kb.m.eheci.com/execution/spark-serialized-task-is-too-large

謝謝,
Saikrishna Pujari
老引發技術解決方案工程師,磚
歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map