取消
顯示的結果
而不是尋找
你的意思是:

自動裝卸機——理解模式更新後失蹤的文件。

Larrio
新的貢獻者三世

你好,

關於自動裝卸機(基於https://docs.m.eheci.com/ingestion/auto-loader/schema.html),到目前為止我所理解的是當它檢測到一個模式更新流失敗,我必須重新運行它,讓它工作,沒關係。

但是一旦我重新運行它,它尋找丟失的文件,因此以下例外

引起的:com.databricks.sql.io。文件ReadException: Error while reading file s3://some-bucket/path/to/data/1999/10/20/***.parquet. [CLOUD_FILE_SOURCE_FILE_NOT_FOUND] A file notification was received for file: s3://some-bucket/path/to/data/1999/10/20/***.parquet but it does not exist anymore. Please ensure that files are not deleted before they are processed. To continue your stream, you can set the Spark SQL configuration spark.sql.files.ignoreMissingFiles to true.

它工作得很好當我ignoreMissingFiles設置為True。

我理解它失敗第一次檢測到一個變化,但是為什麼它第二次查找刪除文件自動裝卸機運行嗎?

的影響是什麼?我丟失數據嗎?

謝謝!

6個回答6

Vidula_Khanna
主持人
主持人

嗨@Lucien Arrio

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

Larrio
新的貢獻者三世

你好,我仍然沒有答案為什麼我們丟失的文件,我理解火花如何處理它,但是我不知道為什麼我們會有丟失的文件放在第一位。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map