你好,
關於自動裝卸機(基於https://docs.m.eheci.com/ingestion/auto-loader/schema.html),到目前為止我所理解的是當它檢測到一個模式更新流失敗,我必須重新運行它,讓它工作,沒關係。
但是一旦我重新運行它,它尋找丟失的文件,因此以下例外
引起的:com.databricks.sql.io。文件ReadException: Error while reading file s3://some-bucket/path/to/data/1999/10/20/***.parquet. [CLOUD_FILE_SOURCE_FILE_NOT_FOUND] A file notification was received for file: s3://some-bucket/path/to/data/1999/10/20/***.parquet but it does not exist anymore. Please ensure that files are not deleted before they are processed. To continue your stream, you can set the Spark SQL configuration spark.sql.files.ignoreMissingFiles to true.
它工作得很好當我ignoreMissingFiles設置為True。
我理解它失敗第一次檢測到一個變化,但是為什麼它第二次查找刪除文件自動裝卸機運行嗎?
的影響是什麼?我丟失數據嗎?
謝謝!
嗨@Debayan穆克吉
配置(除了我沒有一個定製的火花以下行來讓它忽略了丟失的文件)
spark.sql.files。ignoreMissingFiles真實
集群配置
政策:無限製的多節點訪問模式:單用戶數據磚運行時版本:11.3 LTS (Scala 2.12,火花3.3.0)工作類型:r5d。超大工人:2 (64 GB內存8核)驅動程序類型:工人一樣(32 GB內存,4芯)
我使用統一目錄還是否有幫助。