我有一個每日跑步的筆記本,偶爾失敗與錯誤:
“運行結果不可用:任務失敗和錯誤消息
意想不到的失敗在等待集群((xxxxxxxxxxxxxxx)) readySome(:集群xxxxxxxxxxxxxxxx意想不到的狀態終止:CONTAINER_LAUNCH_FAILURE (SERVICE_FAULT)即instance_id: ixxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx, databricks_error_message:未能推出火花i-xxxxxxxxxxxxxxxxxxxx容器實例。例外:意想不到的內部錯誤,請聯係磚支持)。”
從我得到這個信息:事件日誌(“集群終止。原因:容器啟動失敗。時是遇到意外錯誤啟動容器對工人實例的集群。如果問題仍然存在請重試和接觸磚。”)
這個錯誤通常發生每隔4 - 5天,沒有工作日誌。也奇怪的是運行時間仍然是像筆記本一樣運行。有人遇到過這個問題嗎?
@Eli Kvarfordt:
這個錯誤消息表明,火花集裝箱未能推出的工人實例集群中,可能有許多原因,包括問題和底層基礎設施的配置問題。這裏有一些步驟可以進行故障排除和解決問題:
值得注意的,如果運行時間仍然是像筆記本一樣運行,有可能筆記本並實際運行並完成,但是沒有保存由於錯誤日誌。
@Eli Kvarfordt:
當然可以,你的工作是執行的任務是導致集群的問題。例如,如果工作是使用大量的資源或生成大量的網絡流量,這可能是影響集群的性能或使其提供資源以意想不到的方式。
你可以嚐試的一件事是監控集群工作運行時的資源使用情況,看看是否有任何相關峰值或不尋常的模式可以失敗。您可以使用磚集群儀表盤指標監控集群的CPU、內存和網絡使用。
至於缺少日誌,有可能失敗也發生在工作執行過程的早期生成日誌。如果你的筆記本的第一個細胞甚至不運行,可能是筆記本本身是無法啟動或集群甚至終止之前到達第一個單元格。在這種情況下,它可能是有益的嚐試手動運行筆記本以外的作業調度器,看看你可以複製的問題,獲得更多的信息發生了什麼。