取消
顯示的結果
而不是尋找
你的意思是:

如何處理所有Azure存儲文件從磚嗎

bchaubey
貢獻者

你好,

我要處理所有的文件在我的azure存儲使用磚,流程是什麼?

2接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世

這取決於你說的“過程”。
火花可以讀幾個文件。所有你需要的是一個目錄和文件的路徑。
然後你可以使用spark.read.parquet讀取整個目錄/ csv / json /…(取決於你的文件格式)。

重要的是然而,所有文件具有相同的模式(列),否則這種方法不會工作。

這是你正在尋找的嗎?或者你還需要幫助鏈接數據湖磚嗎?

在原帖子查看解決方案

bchaubey
貢獻者

附件中隻有一個csv文件003.。假設我有5個文件和模式都是一樣的。一個一個載入dataframe如何?

在原帖子查看解決方案

5回複5

werners1
尊敬的貢獻者三世

這取決於你說的“過程”。
火花可以讀幾個文件。所有你需要的是一個目錄和文件的路徑。
然後你可以使用spark.read.parquet讀取整個目錄/ csv / json /…(取決於你的文件格式)。

重要的是然而,所有文件具有相同的模式(列),否則這種方法不會工作。

這是你正在尋找的嗎?或者你還需要幫助鏈接數據湖磚嗎?

bchaubey
貢獻者

附件中隻有一個csv文件003.。假設我有5個文件和模式都是一樣的。一個一個載入dataframe如何?

werners1
尊敬的貢獻者三世
df = spark.read.csv (“/ mnt / /數據/ csv湖”)

這裏我認為“/ mnt /湖/數據/ csv”與5的文件的目錄。
spark.read。csv也有一些選項分離器、標題等:
https://spark.apache.org/docs/latest/sql-data-sources-csv.html

所以沒有必要做這一個接一個地讀整dir。

bchaubey
貢獻者

你能提供我的代碼和我的場景嗎

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map