我有一些三角洲表在我們的開發環境中,今天開始出現以下錯誤:
py4j.protocol。Py4JJavaError:調用o670.execute時發生一個錯誤。:org.apache.spark。SparkException:工作階段失敗而終止:104年任務階段1145.0失敗了4次,最近的失敗:在舞台上失去了任務104.3 1145.0 (TID 2949)(10.111.21.215執行人1):. lang。HDFSStateStoreProvider IllegalStateException:錯誤閱讀流狀態文件[id = (op = 0 = 104), dir = s3a: / / # # # # # # # # # # # # # # # # # # # / offers-stage-1 /檢查點/ offers-silver-stage1-pipeline /州/ 0/104):s3a: / / # # # # # # # # # # # # # # # # # # # / offers-stage-1檢查點/ offers-silver-stage1-pipeline /狀態/ 0/104/1.delta並不存在。如果流的工作重新開始一個新的或更新的狀態操作,請創建一個新的檢查點位置或清除現有檢查點位置。
這些表沒有寫體積都高得令人難以置信,兩周前我最終重置整個數據湖在我們的dev /舞台環境中部署一些新的邏輯;巧合的是對應於我們目前的真空政策(即。14天)。
這感覺不到一個巧合。
有一個已知問題使用真空表沒有寫高卷?