意想不到的集群終止

學習如何解決磚集群,意外停止。

寫的亞當Pavlacka

去年發表在:2022年3月4日

有時一個集群意外終止,沒有結果的手動終止或配置自動終止。一個集群可以終止的原因很多。一些終端是由磚和其他由雲提供商。本文描述了終止的原因和補救措施。

超過磚發起請求的限製

抵禦API的濫用,保證服務質量,並防止你意外地創建太多的大型集群,磚扼殺所有集群up-sizing請求,包括創建集群,開始和調整。節流使用令牌桶算法節點的總數限製,任何人都可以發布在一個定義的時間間隔在你磚部署,同時允許特定大小的請求。請求來自web UI和api受到限製。當集群請求超過速度限製,超標請求失敗的REQUEST_LIMIT_EXCEEDED錯誤。

解決方案

如果你限製了合法的工作流,磚建議您執行以下操作:

  • 幾分鍾後重試您的請求。
  • 均勻地分散重複工作流的時間計劃。例如,不安排你所有的工作在每小時運行邊界,嚐試在不同的時間間隔在一個小時內分發它們。
  • 考慮使用具有更大的集群節點類型和較小的節點數量。
  • 使用自動定量集群。

如果這些選項不為你工作,接觸磚支持請求的限製增加為核心的實例。

其他磚開始終止的原因,明白了終止代碼

雲提供商發起終端

本文列出了常見的雲提供商相關終止的原因和補救措施。

AWS

供應商限製

磚發射集群通過請求資源代表雲賬戶。有時,這些請求失敗,因為他們將超過你的雲賬號的資源限製。在AWS,常見的錯誤代碼包括:

InstanceLimitExceeded

AWS限製運行實例的數量為每個節點類型。可能的解決方案包括:

  • 用更少的節點請求一個集群。
  • 請求一個集群不同的節點類型。
  • 問AWS支持增加實例的限製

Client.VolumeLimitExceeded

集群創建請求超過了EBS卷極限。AWS有兩種類型的體積限製:限製EBS卷的總數和限製的總存儲大小EBS卷。潛在的補救措施:

  • 用更少的節點請求一個集群。
  • 檢查這兩個極限的超越。(AWS受信任的顧問顯示服務免費限製)。如果請求的總數超過了EBS卷,盡量減少請求的每個節點的體積數。如果請求超過了總EBS存儲大小,盡量減少請求的存儲大小和/或EBS卷的數量。
  • 問AWS支持增加EBS卷的限製

RequestLimitExceeded

AWS限製了API請求的速度為一個AWS帳戶。等一段時間再重試請求。

供應商關閉

火花司機是一個單點故障,因為它擁有所有集群狀態。如果實例托管司機節點關閉,磚終止集群。在AWS,常見的錯誤代碼包括:

Client.UserInitiatedShutdown

實例被直接請求終止AWS並非來源於磚。請聯係AWS管理員為更多的細節。

Server.InsufficientInstanceCapacity

AWS實例不能滿足要求。等一會兒和重試請求。如果問題持續接觸AWS支持。

Server.SpotInstanceTermination

AWS實例被終止,因為當前的現貨價格已超過最大報價為這個實例。使用一個按需驅動實例,選擇不同的可用性區域,或指定更高的收購價格。

為其他shutdown-related錯誤代碼,請參考AWS文檔

刪除

發射失敗

AWS

在AWS,常見的錯誤代碼包括:

UnauthorizedOperation

磚未被授權發起請求的實例。可能的原因包括:

  • AWS管理員無效AWS訪問密鑰或我角色用來啟動實例。
  • 你試圖啟動一個集群使用了我的角色,磚沒有權限使用。聯係AWS管理員設置我的角色。有關更多信息,請參見安全訪問S3 bucket使用我的角色

不支持不支持消息”EBS-optimized實例請求配置”

所選實例類型不是可用的選擇可用性區域(AZ)。它實際上並沒有與EBS-optimization被啟用。要矯正,可以選擇不同的實例類型或阿茲。

AuthFailure.ServiceLinkedRoleCreationNotPermitted

提供的憑證不允許創建的服務聯係角色EC2實例。磚管理員需要更新證書用於啟動實例,在您的帳戶。指令和可以找到更新的政策AWS帳戶

看到錯誤代碼AWS錯誤代碼的完整列表。

刪除

Azure

這終止原因發生在Azure磚未能獲得虛擬機。從API錯誤代碼和信息傳播來幫助你解決這個問題。

OperationNotAllowed

您已達到配額限製,通常數量的核心,可以啟動你的訂閱。請求增加限製Azure門戶。看到Azure服務訂閱和限製、配額和約束

PublicIPCountLimitReached

你已經達到了極限的公共ip,可以運行。請求增加限製Azure門戶。

SkuNotAvailable

資源SKU您選擇(比如虛擬機大小)不是可供您選擇的位置。解決,看解決錯誤SKU

ReadOnlyDisabledSubscription

你的訂閱是禁用的。按以下步驟在為什麼我的Azure訂閱殘疾和我如何激活嗎?重新激活你的訂閱。

ResourceGroupBeingDeleted

可能發生如果有人取消Azure磚工作區在Azure門戶和您嚐試創建一個集群在同一時間。集群失敗因為資源組被刪除。

SubscriptionRequestsThrottled

你的訂閱是Azure資源管理器請求限製(參見節流資源管理器的請求)。典型的原因是另一個係統外Azure磚)使得Azure很多API調用。聯係Azure支持這個係統識別,然後減少API調用的數量。

刪除

溝通了

磚能夠啟動集群,但是失去了連接到實例托管火花司機。

AWS

造成不正確的網絡配置(例如,改變安全組設置為磚工人)或瞬態AWS網絡問題。

刪除

Azure

司機造成的虛擬機下降或一個網絡的問題。

刪除
這篇文章有用嗎?