分析23 -磚- 12944 GB的JSON文件

jayallenmn · ‎07-20-2022

嘿,所有的,

我們試圖分析23 GB JSON文件中的數據。我們使用的基本啟動集群——一個節點,2 cpu x 8 gb。

我們可以讀取JSON文件到一個火花dataframe和打印模式但如果我們試著做任何操作,不會導致收集(,過濾器),司機不能與“意外引發司機已經停止並重新啟動。你的筆記本將會自動重新接好。”

JSON文件多行,這聽起來像是整個必須讀入內存集群節點,所以我們需要一個更大的節點。集群你們推薦什麼尺寸的?我們在看一群3 8 x 32 s -你認為會工作嗎?

周傑倫

Prabakar · ‎07-21-2022

你好艾倫@Jay你可以參考集群規模醫生。

jayallenmn · ‎07-21-2022

謝謝Prabakar !我們還剩下12天審判——我們必須支付AWS vm但是磚片與新自由在審判期間,大集群?