取消
顯示的結果
而不是尋找
你的意思是:

用單一的CSV文件

Mohit_Kumar_Sut
新的貢獻者三世

我們閱讀520 gb的分區從CSV文件,當我們寫在一個CSV使用重新分配(1)它是25 +小時。請讓我們知道一個優化的方法來創建一個CSV文件,這樣我們的流程可以在5小時內完成。

5回複5

Hubert_Dudek1
尊敬的貢獻者三世

如果你重新分配(1),隻有一個你的整個集群的核心工作。請重新分配核心數量(SparkContext.DefaultParallelism)。

寫作後,你會得到一個文件/核心,所以請如果你想使用其他軟件來合並文件隻有一個(ADF一些優秀的選項,在複製)。

謝謝你的時間和支持,還有其他有效方法結合部分CSV文件到一個CSV文件在磚嗎?

Hubert_Dudek1
尊敬的貢獻者三世

方法在磚是您正在使用的和緩慢(重新分區(1))。

您可以使用合並(1)例如:

df.coalesce (1) .write.option(“標題”、“true”) . csv (“path_to_save_your_CSV”)

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map