解決:如何處理所有來自Databri Azure存儲文件…-磚- 37871

bchaubey · ‎07-18-2023

你好,

我要處理所有的文件在我的azure存儲使用磚,流程是什麼?

werners1 · ‎07-18-2023

這取決於你說的“過程”。
火花可以讀幾個文件。所有你需要的是一個目錄和文件的路徑。
然後你可以使用spark.read.parquet讀取整個目錄/ csv / json /…(取決於你的文件格式)。

重要的是然而,所有文件具有相同的模式(列),否則這種方法不會工作。

這是你正在尋找的嗎?或者你還需要幫助鏈接數據湖磚嗎?

bchaubey · ‎07-18-2023

附件中隻有一個csv文件003.。假設我有5個文件和模式都是一樣的。一個一個載入dataframe如何?

werners1 · ‎07-18-2023

這取決於你說的“過程”。
火花可以讀幾個文件。所有你需要的是一個目錄和文件的路徑。
然後你可以使用spark.read.parquet讀取整個目錄/ csv / json /…(取決於你的文件格式)。

重要的是然而,所有文件具有相同的模式(列),否則這種方法不會工作。

這是你正在尋找的嗎?或者你還需要幫助鏈接數據湖磚嗎?

bchaubey · ‎07-18-2023

附件中隻有一個csv文件003.。假設我有5個文件和模式都是一樣的。一個一個載入dataframe如何?

werners1 · ‎07-18-2023

df = spark.read.csv (“/ mnt / /數據/ csv湖”)

這裏我認為“/ mnt /湖/數據/ csv”與5的文件的目錄。
spark.read。csv也有一些選項分離器、標題等:
https://spark.apache.org/docs/latest/sql-data-sources-csv.html

所以沒有必要做這一個接一個地讀整dir。

bchaubey · ‎07-18-2023

你能提供我的代碼和我的場景嗎

磚