解決:問題在閱讀鋪文件pyspark databrick……-磚- 31504 - beplay体育赛事,Beplay体育安卓版本

不時的源係統生成鋪文件隻有220 kb大小。

但是閱讀它失敗。

“io。IOException:無法讀取或轉換模式文件:1 - 2022 - 00 - 51 - 56. -拚花

引起的:org.apache.spark.sql。AnalysisException:拚花類型不支持:INT32 (UINT_32);

”

我試圖使用一個模式和mergeSchema選項

df = spark.read.options (mergeSchema = True) . schema (mdd_schema_struct) .parquet(目標)

這是能夠讀取文件並顯示如果你運行計數或合並它會失敗

“由於:. lang。RuntimeException:非法行組0行”

有誰知道這個問題。

1接受解決方案

接受的解決方案

看來,文件損壞了也許你可以忽略它們通過設置:

spark.conf.set (“spark.sql.files。ignoreCorruptFiles”、“真正的”)

你也可以檢查設置:

sqlContext.setConf (“spark.sql.parquet.filterPushdown”,“假”)

你可以注冊你的文件如表(指著那個位置與文件)比嚐試運行和正確的模式設置:

%的sql

table_name MSCK修理表

https://spark.apache.org/docs/3.0.0-preview/sql-ref-syntax-ddl-repair-table.html

在原帖子查看解決方案

3回複3

看來,文件損壞了也許你可以忽略它們通過設置:

spark.conf.set (“spark.sql.files。ignoreCorruptFiles”、“真正的”)

你也可以檢查設置:

sqlContext.setConf (“spark.sql.parquet.filterPushdown”,“假”)

你可以注冊你的文件如表(指著那個位置與文件)比嚐試運行和正確的模式設置:

%的sql

table_name MSCK修理表

https://spark.apache.org/docs/3.0.0-preview/sql-ref-syntax-ddl-repair-table.html

是的,我不得不使用badRows選項。這把壞文件給定的路徑。

@nafri——你好!我的名字是風笛手,我社區版主磚。你會很高興馬克@Hubert杜德克的回答是最好的如果它解決了這個問題嗎?幫助其他成員更快地找到答案。謝謝

從未顯出

你必須在添加附件簽署

從未顯出

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。