解決:不能儲備更多連續的字節…-磚- 13774

shan_chandra · ‎10-11-2021

我得到以下錯誤當工作負載運行流從源三角洲表

引起的:. lang。RuntimeException:不能儲備更多連續的字節在矢量化讀者(要求xxxxxxxxx字節)。作為一個解決方案,你可以減少矢量化讀者批量大小,或禁用矢量化的讀者,或禁用spark.sql.sources.bucketing。如果你閱讀從桶表啟用。spark.sql.parquet鑲花的文件格式,請參考。4096年columnarReaderBatchSize(默認)和spark.sql.parquet.enableVectorizedReader;獸人的文件格式,請參考spark.sql.orc。4096年columnarReaderBatchSize(默認)和spark.sql.orc.enableVectorizedReader

你能請讓我們知道如何緩解這個問題呢?

shan_chandra · ‎10-11-2021

這正在發生,因為δ/拚花源有一個或多個下列:

一個巨大的列數
在一個或多個列巨大的字符串
巨大的數組/地圖,可能在相互嵌套

為了緩解這個問題,你能減少spark.sql.parquet.columnarReaderBatchSize從默認值- 4096嗎?

在原帖子查看解決方案

shan_chandra · ‎10-11-2021

這正在發生,因為δ/拚花源有一個或多個下列:

一個巨大的列數
在一個或多個列巨大的字符串
巨大的數組/地圖,可能在相互嵌套

為了緩解這個問題,你能減少spark.sql.parquet.columnarReaderBatchSize從默認值- 4096嗎?

磚

矢量化的讀者不能儲備更多連續的字節(要求xxxxxxxxx字節)。