取消
顯示的結果
而不是尋找
你的意思是:

RPC電離錯誤由於容器閾值超過和垃圾收集器錯誤當閱讀23 gb多行JSON文件。

rdobbss
新的貢獻者二世

我正在讀23 gb多線json文件,並使用udf和寫作datframe壓扁它使用psypark拚花。

集群我用3節點核心(8)64 gb內存限製去高達8節點。

我能夠處理7 gb文件沒有問題,需要25分鍾左右。

雖然當閱讀23 gb文件做RPC分解和垃圾收集器的錯誤。

代碼:

df = spark.read。負載(文件格式= json,多行= True, utf - 8編碼= ').repartition (128)

df = parse_json (df) #這個函數趨於平緩的文件。寫在pyspark利用parallalism。

df = df.write。json (outfilepath模式=“覆蓋”)

閱讀文件需時約5分鍾。

2號線需要20秒(由於懶惰的評價)

寫作需要25分鍾和4次試驗失敗。

我找到它,即使我做的再分配,文件不是分成這些分區和負載在寫作是由單芯1日工作。

7 gb文件還,我發現1日工作而寫需要5 - 6分鍾來處理文件,然後第二工作平行寫文件到目標使用所有的分區。

我的假設是我的單核心隻有8 gb的內存,它甚至也不是能夠閱讀23 gb文件就放棄。

23 600 gb文件記錄每個代表有效的json對象。

2回答2

User16753725469
因素二世

哪種類型的工人使用可以使用memory-optimized實例,請試一試。

Vidula
尊敬的貢獻者

嗨@Ravi Dobariya

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map