集群未能啟動

學習如何解決 集群啟動失敗。

寫的亞當Pavlacka

去年發表在:2022年3月4日

本文描述了幾個場景集群未能啟動,並提供故障排除步驟為每個場景基於錯誤消息日誌中找到。

集群超時

錯誤消息:

司機未能及時開始INTERNAL_ERROR:火花司機未能開始300秒內集群在200秒內未能保持健康

導致

集群可以失敗發射如果它有一個連接到外部蜂巢metastore和它試圖下載所有的蜂巢metastore庫從Maven回購。集群下載近200個JAR文件,其中包括依賴關係。如果磚集群管理器不能確認司機5分鍾內準備好,然後集群啟動失敗。這可能發生,因為JAR下載占用太多的時間。

解決方案

蜂巢庫存儲在DBFS DBFS位置並在本地訪問它們。看到火花選項

全球或提供集群範圍內的init腳本

錯誤信息:

集群無法始於50分鍾。後與異常原因:超時< xxx >嚐試

導致

Init腳本運行在集群向上階段RPC(遠程過程調用)發送給每個工人在本地機器上運行腳本。所有rpc之前必須返回他們的狀態過程仍在繼續。如果任何RPC支安打並沒有回答一個問題(例如,由於瞬態網絡問題),那麼小時超時,導致集群設置工作失敗。

解決方案

使用一個集群級init腳本而不是全球或cluster-named init腳本。與集群級init腳本,磚不使用同步阻塞的rpc獲取init腳本執行狀態。

太多的UI庫安裝在集群

錯誤信息:

圖書館安裝1800秒後超時。庫沒有安裝:

導致

這通常是一個斷斷續續的問題由於網絡問題。

解決方案

通常你可以解決這個問題,重新運行或重新啟動集群的工作。

圖書館安裝後配置超時3分鍾。獲取和安裝jar時,超時可能發生由於網絡問題。為了緩解這個問題,您可以下載從Maven庫DBFS位置和安裝它。

雲提供商限製

錯誤信息:

集群終止。原因:雲提供商的限製

導致

這個錯誤通常是由雲提供商返回。

解決方案

看到雲提供商的錯誤信息集群意外終止

雲提供商關閉

錯誤信息:

集群終止。原因:雲提供商關閉

導致

這個錯誤通常是由雲提供商返回。

解決方案

看到雲提供商的錯誤信息集群意外終止

遙不可及的實例(Azure)

錯誤信息:

集群終止。原因:實例訪問時是遇到意外錯誤設置集群。請重試和聯係Azure磚如果問題依然存在。內部錯誤消息:超時而放置節點

導致

這個錯誤通常是由雲提供商返回。通常,當你有一個Azure磚工作區部署到你自己的虛擬網絡(聯接)(而不是當你推出一個新創建的默認VNet Azure磚工作空間)。如果工作空間的虛擬網絡部署的視線或已經ExpressRoute連接本地資源,虛擬網絡不能讓ssh連接到集群節點當Azure磚試圖創建一個集群。

解決方案

添加一個用戶定義的路由(UDR)給Azure磚控製平麵的ssh訪問集群實例,Blob存儲實例和工件的資源。這個定製的UDR允許出站連接,不幹擾集群的創建。詳細的UDR說明,請參閱步驟3:創建用戶定義的航線,並將它們與你的Azure磚虛擬網絡的子網。更多VNet-related故障診斷信息,請參閱故障排除