4星期前
你好,
我要處理所有的文件在我的azure存儲使用磚,流程是什麼?
這取決於你說的“過程”。火花可以讀幾個文件。所有你需要的是一個目錄和文件的路徑。然後你可以使用spark.read.parquet讀取整個目錄/ csv / json /…(取決於你的文件格式)。
重要的是然而,所有文件具有相同的模式(列),否則這種方法不會工作。
這是你正在尋找的嗎?或者你還需要幫助鏈接數據湖磚嗎?
在原帖子查看解決方案
附件中隻有一個csv文件003.。假設我有5個文件和模式都是一樣的。一個一個載入dataframe如何?
df = spark.read.csv (“/ mnt / /數據/ csv湖”)
這裏我認為“/ mnt /湖/數據/ csv”與5的文件的目錄。spark.read。csv也有一些選項分離器、標題等:https://spark.apache.org/docs/latest/sql-data-sources-csv.html
所以沒有必要做這一個接一個地讀整dir。
你能提供我的代碼和我的場景嗎
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。