解決:Re:支持拚花brotli壓縮或我們……-磚- 10368

Erik_L · ‎01-31-2023

火花3.3.1支持brotli壓縮編解碼器,但是當我用它來讀鋪文件從S3,得到:

INVALID_ARGUMENT:不支持的編解碼器鋪頁麵:BROTLI

示例代碼:

df = (spark.read.format(“鋪”).option .load(“壓縮”、“brotli”) (“s3: / / <桶> / <路徑> / <文件> .parquet”) df.write.saveAsTable (“tmp_test”)

我有大量數據存儲壓縮,所以現在切換是困難的。它看起來像考拉支持手動或者我可以攝取它通過旋轉自己的火花,但這將失敗的點磚/三角洲湖/自動裝卸機。工作有什麼建議嗎?

編輯:

更多的輸出:

引起的:. lang。RuntimeException: INVALID_ARGUMENT:不支持的編解碼器鋪頁麵:BROTLI com.databricks.sql.io.caching.NativePageWriter美元。創建(本機方法)在com.databricks.sql.io.caching.DiskCache PageWriter美元。< init > (DiskCache.scala: 318)美元com.databricks.sql.io.parquet.CachingPageReadStore UnifiedCacheColumn.populate (CachingPageReadStore.java: 1183) com.databricks.sql.io.parquet.CachingPageReadStore UnifiedCacheColumn.lambda getPageReader美元0 (com.databricks.sql.io.caching.NativeDiskCache CachingPageReadStore.java: 1177)美元。(本機方法)在com.databricks.sql.io.caching.DiskCache.get (DiskCache.scala: 515) com.databricks.sql.io.parquet.CachingPageReadStore UnifiedCacheColumn.getPageReader美元(CachingPageReadStore.java: 1178) com.databricks.sql.io.parquet.CachingPageReadStore.getPageReader (CachingPageReadStore.java: 1012) com.databricks.sql.io.parquet.DatabricksVectorizedParquetRecordReader.checkEndOfRowGroup (DatabricksVectorizedParquetRecordReader.java: 741) com.databricks.sql.io.parquet.DatabricksVectorizedParquetRecordReader.nextBatch (DatabricksVectorizedParquetRecordReader.java: 603)

Erik_L · ‎02-01-2023

給我附加的新信息,我看著三角洲緩存和我可以禁用它:

.option (“spark.databricks.io.cache。啟用”,假)

這是一個工作當我讀這些文件在DBFS在本地保存它們,但是它有性能影響?我隻這樣做從S3上傳從外部攝取文件的過程。我擔心可能會有更多的讀取從S3攝入增加成本。

在原帖子查看解決方案

Debayan · ‎01-31-2023

嗨,請檢查是否這有助於:https://spark.apache.org/docs/2.4.3/sql-data-sources-parquet.html

另外,您可以參考https://community.m.eheci.com/s/question/0D53f00001HKHSsCAP/how-can-i-change-the-parquet-compress..。

Erik_L · ‎02-01-2023

正確的。在描述,它說“壓縮”的優先級是為了遵循b y“parquet.compression”這個選項。正如你所看到的在上麵的代碼中,我使用“壓縮”,但我確實測試這個選項。同樣的錯誤。

我相信這是一個問題具體Databrick層/火花/δ表,最有可能的是,他們有一個編碼驗證和沒有添加brotli,它除了火花是“最近”。

Erik_L · ‎02-01-2023

給我附加的新信息,我看著三角洲緩存和我可以禁用它:

.option (“spark.databricks.io.cache。啟用”,假)

這是一個工作當我讀這些文件在DBFS在本地保存它們,但是它有性能影響?我隻這樣做從S3上傳從外部攝取文件的過程。我擔心可能會有更多的讀取從S3攝入增加成本。

磚

支持拚花brotli壓縮或解決