取消
顯示的結果
而不是尋找
你的意思是:

有任何人看到狀態文件消失在容量增量表嗎?

JordanYaker
貢獻者

我有一些三角洲表在我們的開發環境中,今天開始出現以下錯誤:

py4j.protocol。Py4JJavaError:調用o670.execute時發生一個錯誤。:org.apache.spark。SparkException:工作階段失敗而終止:104年任務階段1145.0失敗了4次,最近的失敗:在舞台上失去了任務104.3 1145.0 (TID 2949)(10.111.21.215執行人1):. lang。HDFSStateStoreProvider IllegalStateException:錯誤閱讀流狀態文件[id = (op = 0 = 104), dir = s3a: / / # # # # # # # # # # # # # # # # # # # / offers-stage-1 /檢查點/ offers-silver-stage1-pipeline /州/ 0/104):s3a: / / # # # # # # # # # # # # # # # # # # # / offers-stage-1檢查點/ offers-silver-stage1-pipeline /狀態/ 0/104/1.delta並不存在。如果流的工作重新開始一個新的或更新的狀態操作,請創建一個新的檢查點位置或清除現有檢查點位置。

這些表沒有寫體積都高得令人難以置信,兩周前我最終重置整個數據湖在我們的dev /舞台環境中部署一些新的邏輯;巧合的是對應於我們目前的真空政策(即。14天)。

這感覺不到一個巧合。

有一個已知問題使用真空表沒有寫高卷?

1接受解決方案

接受的解決方案

Kaniz
社區經理
社區經理

嗨@Jordan犛牛,錯誤消息顯示一個問題與HDFSStateStoreProvider流狀態文件。具體地說,它提到的文件

s3a: / / # # # # # # # # # # # # # # # # # # # / offers-stage-1檢查點/ offers-silver-stage1-pipeline /狀態/ 0/104/1.delta並不存在。這可能是由於文件被丟失或無法訪問。

故障診斷和解決這個問題,你可以嚐試以下步驟:

  1. 驗證文件路徑:仔細檢查文件路徑s3a: / / # # # # # # # # # # # # # # # # # # # / offers-stage-1 /檢查點/ offers-silver-stage1-pipeline /狀態/ 0/104/1.delta是正確的和可訪問。確保必要的權限來訪問S3 bucket中的文件。
  2. 檢查檢查點位置:確保指定的位置在你流的工作是正確的和可訪問。如果檢查點位置已經修改或重新安置,您可能需要更新相應的配置。
  3. 精確的現有檢查點位置:如果流的工作是與新的或更新的狀態重新啟動操作,您可能需要清除現有檢查點位置。可以通過手動刪除檢查點文件或改變檢查點位置提升到一個新的目錄。
  4. 創建一個新的檢查點位置:如果你有清除現有的一個,你可以創建一個新的目錄和檢查站流的工作配置中指定它。
  5. 審查流任務配置:仔細檢查配置設置為你流的工作,包括狀態存儲提供商和檢查點的位置。確保所有配置設置和正確匹配預期的行為。

想嚐試這些步驟後問題仍然存在。在這種情況下,提供更多的信息關於你的特定的流媒體工作,激發您使用的版本,和任何相關的堆棧跟蹤或錯誤日誌可能是有益的。這些額外的上下文可以幫助進一步的故障診斷和提供更具體的指導。

在原帖子查看解決方案

5回複5

Kaniz
社區經理
社區經理

嗨@Jordan犛牛,錯誤消息顯示一個問題與HDFSStateStoreProvider流狀態文件。具體地說,它提到的文件

s3a: / / # # # # # # # # # # # # # # # # # # # / offers-stage-1檢查點/ offers-silver-stage1-pipeline /狀態/ 0/104/1.delta並不存在。這可能是由於文件被丟失或無法訪問。

故障診斷和解決這個問題,你可以嚐試以下步驟:

  1. 驗證文件路徑:仔細檢查文件路徑s3a: / / # # # # # # # # # # # # # # # # # # # / offers-stage-1 /檢查點/ offers-silver-stage1-pipeline /狀態/ 0/104/1.delta是正確的和可訪問。確保必要的權限來訪問S3 bucket中的文件。
  2. 檢查檢查點位置:確保指定的位置在你流的工作是正確的和可訪問。如果檢查點位置已經修改或重新安置,您可能需要更新相應的配置。
  3. 精確的現有檢查點位置:如果流的工作是與新的或更新的狀態重新啟動操作,您可能需要清除現有檢查點位置。可以通過手動刪除檢查點文件或改變檢查點位置提升到一個新的目錄。
  4. 創建一個新的檢查點位置:如果你有清除現有的一個,你可以創建一個新的目錄和檢查站流的工作配置中指定它。
  5. 審查流任務配置:仔細檢查配置設置為你流的工作,包括狀態存儲提供商和檢查點的位置。確保所有配置設置和正確匹配預期的行為。

想嚐試這些步驟後問題仍然存在。在這種情況下,提供更多的信息關於你的特定的流媒體工作,激發您使用的版本,和任何相關的堆棧跟蹤或錯誤日誌可能是有益的。這些額外的上下文可以幫助進一步的故障診斷和提供更具體的指導。

@Kaniz開羅

  1. 文件確實是走了。我們的權限沒有改變,一切都是合適的。
  2. 檢查點的位置沒有改變,仍與適當的訪問權限項所稱1。
  3. 清除現有的檢查點位置是唯一的作品。這不是一個可以接受的長期戰略,因為這意味著每一個管道需要重新處理,我會永遠追逐我的尾巴和刪除檢查站與問題。
  4. 我已經在S3中手動管理檢查點位置。
  5. 我還沒有操作狀態提供程序配置。都是默認值。

@Kaniz Fatma我使用DBR 11.3這意味著PySpark 3.3.0。

此外,完整的堆棧跟蹤我連著這個答複。

嗨@Jordan犛牛,

驗證文件保留為您的三角洲:確保保留策略表正確設置,檢查是否有任何外部流程或腳本,可能無意中刪除狀態文件。確認停留時間符合您的需求,並不是導致過早缺失必要的文件。

檢查這個美妙的線程如何設置保留政策

請速與三角洲湖社區或支持等頻道三角洲湖GitHub庫或論壇報告問題,尋求進一步的幫助。提供有關您的設置的詳細信息,包括三角洲湖版本,火花版本,相關配置,和任何相關的錯誤日誌。社區成員和維護人員可以提供的見解和指導特定於您的設置。

別忘了分享你的發現,包括故障排除步驟和結果,與利益相關方和三角洲湖社區。這些信息對於正在進行的調查將是有價值的和潛在的決議。

請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map