斷斷續續的“意想不到的失敗在等待……-磚- 20918

108387年 · ‎05-10-2022

偶爾我們遇到一個問題,工作可能會失敗的消息如下:

運行結果不可用:工作失敗與錯誤消息意想不到的失敗在等待集群(ID)做好準備。導致意想不到的國家集群(ID): BOOTSTRAP_TIMEOUT(成功):databricks_error_message: [ID: InstanceId (ID),狀態:INSTANCE_INITIALIZING, workerEnvId: workerEnvId (ID), lastStatusChangeTime: 1651979481336, groupIdOpt沒有,requestIdOpt一些(ID),版本0]與閾值700秒超時後700186毫秒。請檢查網絡連接的數據平麵的控製層麵,即instance_id: ID

我們已經看到了相關的帖子https://community.m.eheci.com/s/question/0D53f00001fR8LGCA0/problem-with-spinning-up-a-cluster-on..。,但不像這個問題,我們的失敗隻有不到5%的時間。由於這個問題,任何工作可能會失敗,沒有共同的時候發生這種事情。

我們可以把AWS EC2日誌失敗的和成功的運行,但沒有明顯的錯誤或兩者之間的差異。失敗的運行仍然正確引導和連接到磚,例如。

如果有幫助,所有工作都建立在dbx集群使用相同的設置(與回退點)。

這個錯誤到底意味著什麼,我們該如何解決它呢?

Kaniz · ‎05-26-2022

嗨@Benjamin Niedzielski,這文章描述了幾個場景集群未能啟動,並提供故障排除步驟為每個場景基於錯誤消息日誌中找到。

108387年 · ‎06-08-2022

謝謝你的回應!我們是在AWS而不是Azure,(因此)錯誤消息似乎並不匹配的文章您提供。不管怎樣,我們已經嚐試的一些建議,如消除外部maven庫,都無濟於事。

切換到池主要降低了問題,但當新集群是必需的,因為池集群已經在使用,我們仍然偶爾收到最初的錯誤。

磚

斷斷續續的“意外失敗在等待集群做好準備”的錯誤