排除故障和修複工作

假設你已經通知(例如,通過一個電子郵件通知,監控解決方案,或磚工作UI)任務已經失敗在你磚的工作運行。本文中的步驟提供指導,幫助您識別失敗的原因,建議你找到修複問題,以及如何修複失敗的工作運行。

識別失敗的原因

找到失敗的任務數據磚工作界麵:

  1. 點擊工作圖標工作在側邊欄。

  2. 的名字列,單擊工作名稱。的運行選項卡顯示活躍的運行和運行完成,包括任何運行失敗。矩陣視圖中運行選項卡顯示的曆史運行的工作,包括成功和失敗對於每個工作任務運行。任務運行可能會成功,因為失敗或跳過,因為依賴任務失敗了。使用矩陣視圖中,您可以快速地識別你的工作運行的任務失敗。

    矩陣的工作運行
  3. 徘徊在一個失敗的任務關聯的元數據。此元數據包括開始和結束日期、狀態、集群持續時間的細節,和,在某些情況下,一個錯誤消息。

  4. 來幫助識別的原因失敗,點擊失敗的任務。的任務運行細節頁麵出現,顯示任務的輸出,錯誤消息,和相關的元數據。

修複失敗的原因

你的任務可能會失敗的原因有幾個,例如,數據質量問題,錯誤配置,或者計算資源不足。以下是建議步驟來解決一些任務失敗的常見原因:

  • 如果失敗是相關的任務配置,點擊編輯任務。任務配置會在新標簽頁中打開。根據需要配置並點擊更新任務保存任務

  • 如果相關的問題是集群資源,例如,不足的情況下,有幾個選項:

    • 如果你的工作是配置為使用集群工作,考慮使用一個共享的集群。

    • 改變集群配置。點擊編輯任務。在工作細節麵板,在計算,點擊配置集群配置。你可以改變工人的數量,實例類型,或其他集群配置選項。您也可以點擊交換切換到另一個可用的集群。確保你最佳的利用可用資源,審查最佳實踐集群配置

    • 如果有必要,請管理員增加雲中的資源配額賬戶和地區部署您的工作區。

  • 如果失敗是由於超過最大並發運行時,:

    • 等待運行完成。

    • 點擊編輯任務。在工作細節麵板中,單擊編輯並發運行,輸入一個新值最大並發運行,然後單擊確認

在某些情況下,失敗的原因可能是上遊的工作;例如,外部數據源不可用。你仍然可以利用修複運行功能覆蓋在下一節之後,外部問題得到解決。

重新運行失敗,跳過任務

識別失敗的原因後,您可以通過運行修複失敗或取消了多任務工作隻有失敗任務的子集和任何相關的任務。因為成功的任務,任何任務,依靠他們不重新運行,這個特性可以減少所需的時間和資源從失敗中恢複工作。

你可以改變工作或任務設置在修複工作之前運行。成功與當前工作任務重新運行和任務設置。舉個例子,如果你改變了路徑筆記本或一個集群環境中,任務是重新運行與更新的筆記本或集群設置。

查看所有任務運行的曆史任務運行細節頁麵。

請注意

  • 如果一個或多個任務共享集群工作,修複運行集群創建了一個新工作。例如,如果原來的運行使用集群的工作my_job_cluster,第一個維修運行集群使用的新工作my_job_cluster_v1,使您可以很容易地看到集群和集群設置初始運行和使用的任何修理。的設置my_job_cluster_v1當前的設置是一樣的my_job_cluster

  • 支持修複隻有工作,安排兩個或兩個以上的任務。

  • 持續時間值顯示在運行選項卡包括第一次運行時開始,直到最新修複運行完成的時候。例如,如果一個運行兩次失敗和成功第三運行,期間包括所有三分的時候。

修複失敗的工作運行:

  1. 單擊該鏈接的運行失敗開始時間列的工作表或單擊運行失敗的矩陣視圖中運行。的工作運行細節頁麵出現。

  2. 點擊修複運行。的修理工作運行對話框,列出所有失敗的任務和任何相關的任務將會重演。

  3. 添加或編輯參數修複任務,輸入的參數修理工作運行對話框。您輸入的參數修理工作運行對話框覆蓋現有值。在後續修複運行時,您可以返回一個參數初始值是結算的鍵和值修理工作運行對話框。

  4. 點擊修複運行修理工作運行對話框。

  5. 修複運行結束後,矩陣視圖更新與修複的新列。任何失敗的任務是紅色現在應該綠色指示成功的競選你的整個工作。

查看和管理連續工作的失敗

當連續失敗的一個連續工作超過一個閾值,磚的工作使用指數倒扣重新工作。工作是在指數倒扣狀態時,一個消息工作細節麵板顯示的信息,包括:

  • 連續失敗的數量。

  • 作業運行沒有錯誤的時期被認為是成功的。

  • 下重試時間如果沒有運行目前活躍。

取消活動來看,重置重試時期,並開始一份新工作運行,點擊重新啟動運行