取消
顯示的結果
而不是尋找
你的意思是:

閱讀在鋪文件錯誤

提單
新的貢獻者三世

我想讀.parqest文件從ADLS gen2 azure磚的位置。但麵臨以下錯誤:

spark.read.parquet (“abfss: / / ............ /……_2023-01-14T08:01:29.8549884Z.parquet”)

org.apache.spark。SparkException:工作階段失敗而終止:任務0階段0.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 0.0 (TID 3)(10.139.64.6執行人0):org.apache.spark。在awaitResult SparkException:異常:

我在穀歌搜索(按建議在一些文章試圖設置spark.driver。maxResultSize 20 g,一些博客說把inferSchema選項),但是同樣的錯誤一次又一次。我試圖讀取文件大小是12 kb。

我試著用下麵的磚集群運行時版本

11.3 LTS(包括Apache火花3.3.0,Scala 2.12)

11.1(包括Apache火花3.3.0,Scala 2.12)

10.4 LTS(包括Apache火花3.2.1之上,Scala 2.12)

誰能請建議如何克服這個問題呢?

4回複4

anpa
新的貢獻者三世

這個錯誤可能與證書的問題。

你可以試試這段代碼

spark.conf.set (“fs.azure.account.auth.type。< storage-account-name > .dfs.core.windows.net”、“< your-access-key >”) spark.read.parquet (“abfss: / / ............ /……_2023-01-14T08:01:29.8549884Z.parquet”)

隱藏< your-access-key >您可以創建秘密範圍按照下麵的指示鏈接:

鏈接創建秘密範圍。

提單
新的貢獻者三世

謝謝你的回答。

但是我使用相同的代碼訪問密鑰

提單
新的貢獻者三世

我再次嚐試,但是同樣的錯誤

spark.conf.set (“fs.azure.account.key。< ContainerName > .dfs.core.windows.net”, ACCESS_KEY)

spark.read.parquet (“abfss: / / ............ /……_2023-01-14T08:01:29.8549884Z.parquet”)

jose_gonzalez
主持人
主持人

你能訪問執行程序日誌嗎?集群是啟動和運行時,您可以訪問執行程序的日誌。例如,錯誤顯示:

org.apache.spark。SparkException:工作階段失敗而終止:任務0階段0.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 0.0 (TID 3)(10.139.64.6執行人0):org.apache.spark。在awaitResult SparkException:異常:

去執行人0並檢查他們失敗的原因

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map