取消
顯示的結果
而不是尋找
你的意思是:

創建一個火花DataFrame從一個非常大的數據集

炭的
新的貢獻者二世

我想創建一個DataFrame使用火花但我有一些問題我使用的數據量。我做了一個通過多個API調用與超過100萬個條目列表。高於閾值的列表spark.rpc.message。最大容量和使用廣播也太大。我一直在讓伯父等使用大量內存錯誤。所以,我創建了兩個列表從原始列表中的數據。當我試圖創建DataFrame再次spark.rpc.message規模還是太大。最大容量,使用32重新分區。我endgoal加入兩個表在一個臨時視圖,然後寫信給鋪PowerBI所以我能得到所有的數據報告。

5回複5

Tharun-Kumar
尊敬的貢獻者
尊敬的貢獻者

@charry

我建議保存為CSV文件列表,然後閱讀它在使用spark.read火花。csv和儲蓄在拚花格式。

erigaud
貢獻者

你有試過指定模式創建DataFrame時?提供正確的類型可以幫助記憶。

Furthemore,可以逐步加載數據到青銅三角洲表而不是加載完整的幾百萬行。

希望這可以幫助!

werners1
尊敬的貢獻者三世

最好的方法確實是寫提取的數據,然後讀回火花。這樣你不負擔引發的所有api調用。

Vidula_Khanna
主持人
主持人

@charry

檢查。如果@werners1回答了,你能讓我們知道最好的答案和馬克?如果沒有,你會很高興給我們更多的信息嗎?

幹杯!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map