有時一個集群意外終止,沒有結果的手動終止或配置自動終止。一個集群可以終止的原因很多。一些終端是由磚和其他由雲提供商。本文描述了終止的原因和補救措施。
超過磚發起請求的限製
抵禦API的濫用,保證服務質量,並防止你意外地創建太多的大型集群,磚扼殺所有集群up-sizing請求,包括創建集群,開始和調整。節流使用令牌桶算法節點的總數限製,任何人都可以發布在一個定義的時間間隔在你磚部署,同時允許特定大小的請求。請求來自web UI和api受到限製。當集群請求超過速度限製,超標請求失敗的REQUEST_LIMIT_EXCEEDED錯誤。
解決方案
如果你限製了合法的工作流,磚建議您執行以下操作:
- 幾分鍾後重試您的請求。
- 均勻地分散重複工作流的時間計劃。例如,不安排你所有的工作在每小時運行邊界,嚐試在不同的時間間隔在一個小時內分發它們。
- 考慮使用具有更大的集群節點類型和較小的節點數量。
- 使用自動定量集群。
如果這些選項不為你工作,接觸磚支持請求的限製增加為核心的實例。
其他磚開始終止的原因,明白了終止代碼。
雲提供商發起終端
本文列出了常見的雲提供商相關終止的原因和補救措施。
AWS
供應商限製
磚發射集群通過請求資源代表雲賬戶。有時,這些請求失敗,因為他們將超過你的雲賬號的資源限製。在AWS,常見的錯誤代碼包括:
InstanceLimitExceeded
AWS限製運行實例的數量為每個節點類型。可能的解決方案包括:
- 用更少的節點請求一個集群。
- 請求一個集群不同的節點類型。
- 問AWS支持增加實例的限製。
Client.VolumeLimitExceeded
集群創建請求超過了EBS卷極限。AWS有兩種類型的體積限製:限製EBS卷的總數和限製的總存儲大小EBS卷。潛在的補救措施:
- 用更少的節點請求一個集群。
- 檢查這兩個極限的超越。(AWS受信任的顧問顯示服務免費限製)。如果請求的總數超過了EBS卷,盡量減少請求的每個節點的體積數。如果請求超過了總EBS存儲大小,盡量減少請求的存儲大小和/或EBS卷的數量。
- 問AWS支持增加EBS卷的限製。
RequestLimitExceeded
AWS限製了API請求的速度為一個AWS帳戶。等一段時間再重試請求。
供應商關閉
火花司機是一個單點故障,因為它擁有所有集群狀態。如果實例托管司機節點關閉,磚終止集群。在AWS,常見的錯誤代碼包括:
Client.UserInitiatedShutdown
實例被直接請求終止AWS並非來源於磚。請聯係AWS管理員為更多的細節。
Server.InsufficientInstanceCapacity
AWS實例不能滿足要求。等一會兒和重試請求。如果問題持續接觸AWS支持。
Server.SpotInstanceTermination
AWS實例被終止,因為當前的現貨價格已超過最大報價為這個實例。使用一個按需驅動實例,選擇不同的可用性區域,或指定更高的收購價格。
為其他shutdown-related錯誤代碼,請參考AWS文檔。
刪除發射失敗
AWS
在AWS,常見的錯誤代碼包括:
UnauthorizedOperation
磚未被授權發起請求的實例。可能的原因包括:
- AWS管理員無效AWS訪問密鑰或我角色用來啟動實例。
- 你試圖啟動一個集群使用了我的角色,磚沒有權限使用。聯係AWS管理員設置我的角色。有關更多信息,請參見安全訪問S3 bucket使用我的角色。
不支持不支持消息”EBS-optimized實例請求配置”
所選實例類型不是可用的選擇可用性區域(AZ)。它實際上並沒有與EBS-optimization被啟用。要矯正,可以選擇不同的實例類型或阿茲。
AuthFailure.ServiceLinkedRoleCreationNotPermitted
提供的憑證不允許創建的服務聯係角色EC2實例。磚管理員需要更新證書用於啟動實例,在您的帳戶。指令和可以找到更新的政策AWS帳戶。
看到錯誤代碼AWS錯誤代碼的完整列表。
刪除Azure
這終止原因發生在Azure磚未能獲得虛擬機。從API錯誤代碼和信息傳播來幫助你解決這個問題。
OperationNotAllowed
您已達到配額限製,通常數量的核心,可以啟動你的訂閱。請求增加限製Azure門戶。看到Azure服務訂閱和限製、配額和約束。
PublicIPCountLimitReached
你已經達到了極限的公共ip,可以運行。請求增加限製Azure門戶。
SkuNotAvailable
資源SKU您選擇(比如虛擬機大小)不是可供您選擇的位置。解決,看解決錯誤SKU。
ReadOnlyDisabledSubscription
你的訂閱是禁用的。按以下步驟在為什麼我的Azure訂閱殘疾和我如何激活嗎?重新激活你的訂閱。
ResourceGroupBeingDeleted
可能發生如果有人取消Azure磚工作區在Azure門戶和您嚐試創建一個集群在同一時間。集群失敗因為資源組被刪除。
SubscriptionRequestsThrottled
你的訂閱是Azure資源管理器請求限製(參見節流資源管理器的請求)。典型的原因是另一個係統外Azure磚)使得Azure很多API調用。聯係Azure支持這個係統識別,然後減少API調用的數量。
刪除