我有一個5000文件(嵌套的JSON ~ 3.5 GB)。我寫了一個代碼在幾分鍾內將json轉換為表(json大小到1 GB),但是當我試圖過程3.5 GB廣州json是失敗,因為垃圾收集。我也嚐試了多個集群,仍然隻是采取18分鍾讀取文件,因為它是一個嵌套的json讀取它隻作為一個單獨的記錄。
請參考示例JSON結構。
代碼片段:
閱讀代碼:
我首先尋找一種方法來處理一個3.5 GZ文件之後,我的重點將是在5000年類似的文件。我正在尋找一種方式將更多的優化和成本效益。目前我使用Azure磚但我打開你使用其他替代技術。