11-21-202134點
我們如何從azure blob存儲和讀取文件過程並行使用pyspark磚。
截止到現在我們一次讀取所有10個文件到dataframe和壓扁。
感謝和問候,
蘇
11-21-2021下午11:49
如果你使用火花json的讀者,它將自動並行發生。
根據集群大小,你將能夠閱讀更多文件並行。
注意,json文件通常很小。火花不喜歡大量的小文件,所以性能會受到影響。
根據用例可以是一個好主意做一個初始轉換拚花/三角洲湖(這需要一些時間因為多個小文件),然後繼續向該表添加新文件。
為您的數據工作,你可以閱讀的拚花/三角洲湖將會快很多。
11-22-2021上午01:51
你能提供我們樣品從blob讀取並行讀取json文件。我們正在閱讀一個接一個從目錄的所有文件是花時間去加載到數據幀
謝謝你!
11-22-202101:54我
spark.read。json (“/ mnt / dbfs / <輸入路徑的json DIR > / * . json
你首先要掛載blob存儲數據磚,我認為已經完成了。
https://spark.apache.org/docs/latest/sql-data-sources-json.html
11-22-2021上午02:59
謝謝你!我們使用的是山已經. .
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。