取消
顯示的結果
而不是尋找
你的意思是:

抽樣不撿火花配置azure存儲帳戶訪問

Leo_138525
新的貢獻者二世

我想打開一些CSV文件作為抽樣,做一些處理,然後作為DataFrame加載它。自文件存儲在一個Azure blob存儲賬戶我需要配置相應的訪問,因為某些原因不能當使用抽樣工作。所以我這樣配置訪問:

spark.conf.set (“fs.azure.account.auth.type。< storage-account > .dfs.core.windows.net”、“OAuth”) spark.conf.set (“fs.azure.account.oauth.provider.type。< storage-account > .dfs.core.windows.net”,“org.apache.hadoop.fs.azurebfs.oauth2.ClientCredsTokenProvider”) spark.conf.set (“fs.azure.account.oauth2.client.id。< storage-account > .dfs.core.windows.net”,“<應用程序id >”) spark.conf.set (“fs.azure.account.oauth2.client.secret。< storage-account > .dfs.core.windows.net”, service_credential) spark.conf.set (“fs.azure.account.oauth2.client.endpoint。< storage-account > .dfs.core.windows.net ", " https://login.microsoftonline.com/ < directory-id > / oauth2 /令牌”)

這是加載文件時直接DataFrame,但當使用抽樣API:

#這與之前設置配置df = spark.read.format (csv) .load (abfss: / /一些/道路/ file.csv”) #這並不工作,則拋出一個錯誤抽樣= spark.sparkContext.textFile (abfss: / /一些/道路/ file.csv”) df = rdd.filter (filter_func) . map (map_func) .toDF ()

我得到的是錯誤的:

未能初始化configurationInvalid fs.azure.account.key配置值檢測

為什麼直接訪問配置工作當加載文件而不是通過抽樣?我怎麼解決這個問題?

1接受解決方案

接受的解決方案

data-guy
新的貢獻者三世

你好!

前幾天我得到同樣的錯誤,我決定這篇文章,我發現:

使用抽樣訪問ADLS Gen 2 |數據工程(data-engineering.wiki)

基本上,關鍵是要設置屬性“hadoop”使用spark.sparkContext.hadoopConfiguration.set (…)

我希望你解決你的問題!

在原帖子查看解決方案

3回複3

data-guy
新的貢獻者三世

你好!

前幾天我得到同樣的錯誤,我決定這篇文章,我發現:

使用抽樣訪問ADLS Gen 2 |數據工程(data-engineering.wiki)

基本上,關鍵是要設置屬性“hadoop”使用spark.sparkContext.hadoopConfiguration.set (…)

我希望你解決你的問題!

shan_chandra
尊敬的貢獻者二世
尊敬的貢獻者二世

@Leo Baudrexel -請檢查服務主體有正確的權限來訪問存儲賬戶?

請確保服務主要有“貢獻者”或“存儲blob數據貢獻者”角色的存儲賬戶。

Leo_138525
新的貢獻者二世

我決定的文件加載到一個DataFrame單個列然後做處理之前分裂成單獨的列和這樣做挺好。

@Hyper人謝謝你的鏈接,我沒有嚐試,但它似乎將解決這一問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map