取消
顯示的結果
而不是尋找
你的意思是:

自動裝卸機——理解模式更新後失蹤的文件。

Larrio
新的貢獻者三世

你好,

關於自動裝卸機(基於https://docs.m.eheci.com/ingestion/auto-loader/schema.html),到目前為止我所理解的是當它檢測到一個模式更新流失敗,我必須重新運行它,讓它工作,沒關係。

但是一旦我重新運行它,它尋找丟失的文件,因此以下例外

引起的:com.databricks.sql.io。文件ReadException: Error while reading file s3://some-bucket/path/to/data/1999/10/20/***.parquet. [CLOUD_FILE_SOURCE_FILE_NOT_FOUND] A file notification was received for file: s3://some-bucket/path/to/data/1999/10/20/***.parquet but it does not exist anymore. Please ensure that files are not deleted before they are processed. To continue your stream, you can set the Spark SQL configuration spark.sql.files.ignoreMissingFiles to true.

它工作得很好當我ignoreMissingFiles設置為True。

我理解它失敗第一次檢測到一個變化,但是為什麼它第二次查找刪除文件自動裝卸機運行嗎?

的影響是什麼?我丟失數據嗎?

謝謝!

6個回答6

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

嗨,我發現一個有趣的閱讀收到的同樣的錯誤:https://www.waitingforcode.com/apache-spark-sql/ignoring-files-issues-apache-spark-sql/read,讓我們知道如果這有幫助。

也請標記@Debayan你的下一個反應,將通知我,謝謝!

Larrio
新的貢獻者三世

你好@Debayan穆克吉

謝謝你的回答,我已經見過閱讀和很高興知道丟失的文件句柄。

但我的問題是自動裝卸機,為什麼我們會有丟失的文件呢?

Debayan
尊敬的貢獻者三世
尊敬的貢獻者三世

你好,

請確認您的集群配置嗎?此外,火花相依?

Larrio
新的貢獻者三世

嗨@Debayan穆克吉

配置(除了我沒有一個定製的火花以下行來讓它忽略了丟失的文件)

spark.sql.files。ignoreMissingFiles真實

集群配置

政策:無限製的多節點訪問模式:單用戶數據磚運行時版本:11.3 LTS (Scala 2.12,火花3.3.0)工作類型:r5d。超大工人:2 (64 GB內存8核)驅動程序類型:工人一樣(32 GB內存,4芯)

我使用統一目錄還是否有幫助。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map