4星期前
我想創建一個DataFrame使用火花但我有一些問題我使用的數據量。我做了一個通過多個API調用與超過100萬個條目列表。高於閾值的列表spark.rpc.message。最大容量和使用廣播也太大。我一直在讓伯父等使用大量內存錯誤。所以,我創建了兩個列表從原始列表中的數據。當我試圖創建DataFrame再次spark.rpc.message規模還是太大。最大容量,使用32重新分區。我endgoal加入兩個表在一個臨時視圖,然後寫信給鋪PowerBI所以我能得到所有的數據報告。
@charry
我建議保存為CSV文件列表,然後閱讀它在使用spark.read火花。csv和儲蓄在拚花格式。
你有試過指定模式創建DataFrame時?提供正確的類型可以幫助記憶。
Furthemore,可以逐步加載數據到青銅三角洲表而不是加載完整的幾百萬行。
希望這可以幫助!
最好的方法確實是寫提取的數據,然後讀回火花。這樣你不負擔引發的所有api調用。
3周之前
嗨@charry
檢查。如果@werners1回答了,你能讓我們知道最好的答案和馬克?如果沒有,你會很高興給我們更多的信息嗎?
幹杯!
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。