偶爾我們遇到一個問題,工作可能會失敗的消息如下:
運行結果不可用:工作失敗與錯誤消息意想不到的失敗在等待集群(ID)做好準備。導致意想不到的國家集群(ID): BOOTSTRAP_TIMEOUT(成功):databricks_error_message: [ID: InstanceId (ID),狀態:INSTANCE_INITIALIZING, workerEnvId: workerEnvId (ID), lastStatusChangeTime: 1651979481336, groupIdOpt沒有,requestIdOpt一些(ID),版本0]與閾值700秒超時後700186毫秒。請檢查網絡連接的數據平麵的控製層麵,即instance_id: ID
我們已經看到了相關的帖子https://community.m.eheci.com/s/question/0D53f00001fR8LGCA0/problem-with-spinning-up-a-cluster-on..。,但不像這個問題,我們的失敗隻有不到5%的時間。由於這個問題,任何工作可能會失敗,沒有共同的時候發生這種事情。
我們可以把AWS EC2日誌失敗的和成功的運行,但沒有明顯的錯誤或兩者之間的差異。失敗的運行仍然正確引導和連接到磚,例如。
如果有幫助,所有工作都建立在dbx集群使用相同的設置(與回退點)。
這個錯誤到底意味著什麼,我們該如何解決它呢?