取消
顯示的結果
而不是尋找
你的意思是:

在磚pyspark並行處理的json文件

AzureDatabricks
新的貢獻者三世

我們如何從azure blob存儲和讀取文件過程並行使用pyspark磚。

截止到現在我們一次讀取所有10個文件到dataframe和壓扁。

感謝和問候,

5回複5

werners1
尊敬的貢獻者三世

如果你使用火花json的讀者,它將自動並行發生。

根據集群大小,你將能夠閱讀更多文件並行。

注意,json文件通常很小。火花不喜歡大量的小文件,所以性能會受到影響。

根據用例可以是一個好主意做一個初始轉換拚花/三角洲湖(這需要一些時間因為多個小文件),然後繼續向該表添加新文件。

為您的數據工作,你可以閱讀的拚花/三角洲湖將會快很多。

AzureDatabricks
新的貢獻者三世

你能提供我們樣品從blob讀取並行讀取json文件。我們正在閱讀一個接一個從目錄的所有文件是花時間去加載到數據幀

謝謝你!

werners1
尊敬的貢獻者三世

spark.read。json (“/ mnt / dbfs / <輸入路徑的json DIR > / * . json

你首先要掛載blob存儲數據磚,我認為已經完成了。

https://spark.apache.org/docs/latest/sql-data-sources-json.html

SailajaB
重視貢獻三世

謝謝你!我們使用的是山已經. .

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map