再保險:創建一個火花DataFrame從一個非常大的d…-磚- 37806

炭的 · ‎07-17-2023

我想創建一個DataFrame使用火花但我有一些問題我使用的數據量。我做了一個通過多個API調用與超過100萬個條目列表。高於閾值的列表spark.rpc.message。最大容量和使用廣播也太大。我一直在讓伯父等使用大量內存錯誤。所以,我創建了兩個列表從原始列表中的數據。當我試圖創建DataFrame再次spark.rpc.message規模還是太大。最大容量,使用32重新分區。我endgoal加入兩個表在一個臨時視圖,然後寫信給鋪PowerBI所以我能得到所有的數據報告。

Tharun-Kumar · ‎07-17-2023

@charry

我建議保存為CSV文件列表,然後閱讀它在使用spark.read火花。csv和儲蓄在拚花格式。

erigaud · ‎07-17-2023

你有試過指定模式創建DataFrame時?提供正確的類型可以幫助記憶。

Furthemore,可以逐步加載數據到青銅三角洲表而不是加載完整的幾百萬行。

希望這可以幫助!

werners1 · ‎07-18-2023

最好的方法確實是寫提取的數據,然後讀回火花。這樣你不負擔引發的所有api調用。

Vidula_Khanna · ‎07-19-2023

嗨@charry

檢查。如果@werners1回答了,你能讓我們知道最好的答案和馬克?如果沒有,你會很高興給我們更多的信息嗎?

幹杯!

磚

創建一個火花DataFrame從一個非常大的數據集