取消
顯示的結果
而不是尋找
你的意思是:

支持拚花brotli壓縮或解決

Erik_L
因素二世

火花3.3.1支持brotli壓縮編解碼器,但是當我用它來讀鋪文件從S3,得到:

INVALID_ARGUMENT:不支持的編解碼器鋪頁麵:BROTLI

示例代碼:

df = (spark.read.format(“鋪”).option .load(“壓縮”、“brotli”) (“s3: / / <桶> / <路徑> / <文件> .parquet”) df.write.saveAsTable (“tmp_test”)

我有大量數據存儲壓縮,所以現在切換是困難的。它看起來像考拉支持手動或者我可以攝取它通過旋轉自己的火花,但這將失敗的點磚/三角洲湖/自動裝卸機。工作有什麼建議嗎?

編輯:

更多的輸出:

引起的:. lang。RuntimeException: INVALID_ARGUMENT:不支持的編解碼器鋪頁麵:BROTLI com.databricks.sql.io.caching.NativePageWriter美元。創建(本機方法)在com.databricks.sql.io.caching.DiskCache PageWriter美元。< init > (DiskCache.scala: 318)美元com.databricks.sql.io.parquet.CachingPageReadStore UnifiedCacheColumn.populate (CachingPageReadStore.java: 1183) com.databricks.sql.io.parquet.CachingPageReadStore UnifiedCacheColumn.lambda getPageReader美元0 (com.databricks.sql.io.caching.NativeDiskCache CachingPageReadStore.java: 1177)美元。(本機方法)在com.databricks.sql.io.caching.DiskCache.get (DiskCache.scala: 515) com.databricks.sql.io.parquet.CachingPageReadStore UnifiedCacheColumn.getPageReader美元(CachingPageReadStore.java: 1178) com.databricks.sql.io.parquet.CachingPageReadStore.getPageReader (CachingPageReadStore.java: 1012) com.databricks.sql.io.parquet.DatabricksVectorizedParquetRecordReader.checkEndOfRowGroup (DatabricksVectorizedParquetRecordReader.java: 741) com.databricks.sql.io.parquet.DatabricksVectorizedParquetRecordReader.nextBatch (DatabricksVectorizedParquetRecordReader.java: 603)

1接受解決方案

接受的解決方案

Erik_L
因素二世

給我附加的新信息,我看著三角洲緩存和我可以禁用它:

.option (“spark.databricks.io.cache。啟用”,假)

這是一個工作當我讀這些文件在DBFS在本地保存它們,但是它有性能影響?我隻這樣做從S3上傳從外部攝取文件的過程。我擔心可能會有更多的讀取從S3攝入增加成本。

在原帖子查看解決方案

3回複3

正確的。在描述,它說“壓縮”的優先級是為了遵循b y“parquet.compression”這個選項。正如你所看到的在上麵的代碼中,我使用“壓縮”,但我確實測試這個選項。同樣的錯誤。

我相信這是一個問題具體Databrick層/火花/δ表,最有可能的是,他們有一個編碼驗證和沒有添加brotli,它除了火花是“最近”。

Erik_L
因素二世

給我附加的新信息,我看著三角洲緩存和我可以禁用它:

.option (“spark.databricks.io.cache。啟用”,假)

這是一個工作當我讀這些文件在DBFS在本地保存它們,但是它有性能影響?我隻這樣做從S3上傳從外部攝取文件的過程。我擔心可能會有更多的讀取從S3攝入增加成本。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map