我想讀.parqest文件從ADLS gen2 azure磚的位置。但麵臨以下錯誤:
spark.read.parquet (“abfss: / / ............ /……_2023-01-14T08:01:29.8549884Z.parquet”)
org.apache.spark。SparkException:工作階段失敗而終止:任務0階段0.0失敗了4次,最近的失敗:在舞台上失去了任務0.3 0.0 (TID 3)(10.139.64.6執行人0):org.apache.spark。在awaitResult SparkException:異常:
我在穀歌搜索(按建議在一些文章試圖設置spark.driver。maxResultSize 20 g,一些博客說把inferSchema選項),但是同樣的錯誤一次又一次。我試圖讀取文件大小是12 kb。
我試著用下麵的磚集群運行時版本
11.3 LTS(包括Apache火花3.3.0,Scala 2.12)
11.1(包括Apache火花3.3.0,Scala 2.12)
10.4 LTS(包括Apache火花3.2.1之上,Scala 2.12)
誰能請建議如何克服這個問題呢?
這個錯誤可能與證書的問題。
你可以試試這段代碼
spark.conf.set (“fs.azure.account.auth.type。< storage-account-name > .dfs.core.windows.net”、“< your-access-key >”) spark.read.parquet (“abfss: / / ............ /……_2023-01-14T08:01:29.8549884Z.parquet”)
隱藏< your-access-key >您可以創建秘密範圍按照下麵的指示鏈接: