不時的源係統生成鋪文件隻有220 kb大小。
但是閱讀它失敗。
“io。IOException:無法讀取或轉換模式文件:1 - 2022 - 00 - 51 - 56. -拚花
引起的:org.apache.spark.sql。AnalysisException:拚花類型不支持:INT32 (UINT_32);
”
我試圖使用一個模式和mergeSchema選項
df = spark.read.options (mergeSchema = True) . schema (mdd_schema_struct) .parquet(目標)
這是能夠讀取文件並顯示如果你運行計數或合並它會失敗
“由於:. lang。RuntimeException:非法行組0行”
有誰知道這個問題。
看來,文件損壞了也許你可以忽略它們通過設置:
spark.conf.set (“spark.sql.files。ignoreCorruptFiles”、“真正的”)
你也可以檢查設置:
sqlContext.setConf (“spark.sql.parquet.filterPushdown”,“假”)
你可以注冊你的文件如表(指著那個位置與文件)比嚐試運行和正確的模式設置:
%的sql
table_name MSCK修理表
https://spark.apache.org/docs/3.0.0-preview/sql-ref-syntax-ddl-repair-table.html
看來,文件損壞了也許你可以忽略它們通過設置:
spark.conf.set (“spark.sql.files。ignoreCorruptFiles”、“真正的”)
你也可以檢查設置:
sqlContext.setConf (“spark.sql.parquet.filterPushdown”,“假”)
你可以注冊你的文件如表(指著那個位置與文件)比嚐試運行和正確的模式設置:
%的sql
table_name MSCK修理表
https://spark.apache.org/docs/3.0.0-preview/sql-ref-syntax-ddl-repair-table.html