在磚py並行處理json文件…-磚- 34642

AzureDatabricks · ‎11-21-2021

我們如何從azure blob存儲和讀取文件過程並行使用pyspark磚。

截止到現在我們一次讀取所有10個文件到dataframe和壓扁。

感謝和問候,

蘇

werners1 · ‎11-21-2021

如果你使用火花json的讀者,它將自動並行發生。

根據集群大小,你將能夠閱讀更多文件並行。

注意,json文件通常很小。火花不喜歡大量的小文件,所以性能會受到影響。

根據用例可以是一個好主意做一個初始轉換拚花/三角洲湖(這需要一些時間因為多個小文件),然後繼續向該表添加新文件。

為您的數據工作,你可以閱讀的拚花/三角洲湖將會快很多。

AzureDatabricks · ‎11-22-2021

你能提供我們樣品從blob讀取並行讀取json文件。我們正在閱讀一個接一個從目錄的所有文件是花時間去加載到數據幀

謝謝你！

werners1 · ‎11-22-2021

spark.read。json (“/ mnt / dbfs / <輸入路徑的json DIR > / * . json

你首先要掛載blob存儲數據磚,我認為已經完成了。

SailajaB · ‎11-22-2021

謝謝你！我們使用的是山已經. .

磚