本文描述了幾個場景集群未能啟動,並提供故障排除步驟為每個場景基於錯誤消息日誌中找到。
集群超時
錯誤消息:
司機未能及時開始INTERNAL_ERROR:火花司機未能開始300秒內集群在200秒內未能保持健康
導致
集群可以失敗發射如果它有一個連接到外部蜂巢metastore和它試圖下載所有的蜂巢metastore庫從Maven回購。集群下載近200個JAR文件,其中包括依賴關係。如果磚集群管理器不能確認司機5分鍾內準備好,然後集群啟動失敗。這可能發生,因為JAR下載占用太多的時間。
解決方案
蜂巢庫存儲在DBFS DBFS位置並在本地訪問它們。看到火花選項。
全球或提供集群範圍內的init腳本
錯誤信息:
集群無法始於50分鍾。後與異常原因:超時< xxx >嚐試
導致
Init腳本運行在集群向上階段RPC(遠程過程調用)發送給每個工人在本地機器上運行腳本。所有rpc之前必須返回他們的狀態過程仍在繼續。如果任何RPC支安打並沒有回答一個問題(例如,由於瞬態網絡問題),那麼小時超時,導致集群設置工作失敗。
解決方案
使用一個集群級init腳本而不是全球或cluster-named init腳本。與集群級init腳本,磚不使用同步阻塞的rpc獲取init腳本執行狀態。
太多的UI庫安裝在集群
錯誤信息:
圖書館安裝1800秒後超時。庫沒有安裝:
導致
這通常是一個斷斷續續的問題由於網絡問題。
解決方案
通常你可以解決這個問題,重新運行或重新啟動集群的工作。
圖書館安裝後配置超時3分鍾。獲取和安裝jar時,超時可能發生由於網絡問題。為了緩解這個問題,您可以下載從Maven庫DBFS位置和安裝它。
雲提供商限製
錯誤信息:
集群終止。原因:雲提供商的限製
導致
這個錯誤通常是由雲提供商返回。
解決方案
看到雲提供商的錯誤信息集群意外終止。
雲提供商關閉
錯誤信息:
集群終止。原因:雲提供商關閉
導致
這個錯誤通常是由雲提供商返回。
解決方案
看到雲提供商的錯誤信息集群意外終止。
遙不可及的實例(Azure)
錯誤信息:
集群終止。原因:實例訪問時是遇到意外錯誤設置集群。請重試和聯係Azure磚如果問題依然存在。內部錯誤消息:超時而放置節點
導致
這個錯誤通常是由雲提供商返回。通常,當你有一個Azure磚工作區部署到你自己的虛擬網絡(聯接)(而不是當你推出一個新創建的默認VNet Azure磚工作空間)。如果工作空間的虛擬網絡部署的視線或已經ExpressRoute連接本地資源,虛擬網絡不能讓ssh連接到集群節點當Azure磚試圖創建一個集群。
解決方案
添加一個用戶定義的路由(UDR)給Azure磚控製平麵的ssh訪問集群實例,Blob存儲實例和工件的資源。這個定製的UDR允許出站連接,不幹擾集群的創建。詳細的UDR說明,請參閱步驟3:創建用戶定義的航線,並將它們與你的Azure磚虛擬網絡的子網。更多VNet-related故障診斷信息,請參閱故障排除。