嗨,我是有這個錯誤過於頻繁地在幾個表,我都要看看S3和分區和分區上的文件是否有存在。
錯誤:光譜掃描錯誤:DeltaManifest
代碼:15005
背景:錯誤抓取湖清單δ/產品/ sub_product / _symlink_format_manifest / data_date = 2022-03-04 / data_hour = 0 /清單信息:S3ServiceException:指定鍵不存在。地位404年,錯誤NoSuchKey P66ZVJ3X8MNZFEJH, ExtRid b4eWb8sgxF / 50
查詢:84792889
地點:scan_range_manager.cpp: 1171
過程:worker_thread (pid = 9064)
在描述曆史我看到:
SnapshotIsolation寫操作指標在0:{“numFiles”:“0”,“numOutputRows”:“0”,“numOutputBytes”:“0”}
和WriteSerializable寫操作與文件和輸出行。
隻寫曆史,所有的數據都是由磚加載工作。
任何的想法可能會發生什麼?我的解決方案,因為幾乎沒有數據刪除的文件存在但不能發現和再加工,但是我想要得到這個問題的根源。
可能是一個錯誤,當我運行之間的相關性真空嗎?(默認7天)不這麼認為,因為表沒有讀/寫每個查詢超過30分鍾。但也許這可以幫助!
謝謝! ! !
你可以試著改變隔離級別像這裏描述的https://docs.m.eheci.com/delta/concurrency-control.html
此外S3不支持並發寫道。這個問題是通過AWS提交解決。理論上AWS承諾解決這個問題,但你可以在這裏讀到它https://docs.m.eheci.com/administration-guide/cloud-configurations/aws/s3-commit-service.html
很難說,我從一開始就使用S3的服務但Azure數據存儲湖就像新的更美好的世界而為δ/數據使用S3湖。
你可以試著改變隔離級別像這裏描述的https://docs.m.eheci.com/delta/concurrency-control.html
此外S3不支持並發寫道。這個問題是通過AWS提交解決。理論上AWS承諾解決這個問題,但你可以在這裏讀到它https://docs.m.eheci.com/administration-guide/cloud-configurations/aws/s3-commit-service.html
很難說,我從一開始就使用S3的服務但Azure數據存儲湖就像新的更美好的世界而為δ/數據使用S3湖。
謝謝@Hubert杜德克所以我可以嚐試設置這個失敗表可序列化的默認情況下,在案例中,我明白了這就是目前使用的曆史,但不能傷害
如圖所示:https://docs.m.eheci.com/delta/optimizations/isolation-level.html
ALTER TABLE <表名稱>設置TBLPROPERTIES(δ。isolationLevel”=“序列化”)
提交服務,我從來沒有超過1集群寫那些表和放心我這火花設置的工作:
. config (“spark.databricks.delta.multiClusterWrites.enabled”,“假”)
順便說一句,我從來沒有見過任何序列化錯誤在工作,他們在描述曆史嗎?
謝謝!