最佳實踐:池

本文解釋了什麼是池,以及如何最好地配置池。有關創建池的信息,請參見創建池

什麼是Databricks池?

數據庫池是一組空閑的、隨時可用的實例。當使用空閑實例創建集群節點時,可以減少集群啟動和自動伸縮時間。如果池中沒有空閑實例,則通過從實例提供程序分配一個新實例來擴展池,以適應集群的請求。當一個集群釋放一個實例時,它將返回到池中,供另一個集群使用。隻有附加到池的集群才能使用該池的空閑實例。

您可以為驅動節點和工作節點指定不同的池,也可以為兩者使用相同的池。

當實例在池中空閑時,Databricks不向DBUs收費。實例提供程序計費不適用。看到定價

您可以使用用戶界麵管理池實例池CLI,或調用實例池API 2.0

池的建議

Databricks平台提供了Beplay体育安卓版本一種高效且經濟的方式來管理您的分析基礎設施。當您使用池時,Databricks推薦以下最佳實踐:

  • 根據目標工作負載使用實例類型和Databricks運行時創建池。

  • 在可能的情況下,用現貨實例填充池以降低成本。

  • 為執行時間短且執行時間要求嚴格的作業填充按需實例池。

  • 使用池標記和集群標記來管理計費。

  • 使用池配置選項來最小化成本。

  • 預填充池以確保集群需要實例時實例可用。

根據工作負載創建池

如果您的驅動節點和工作節點有不同的需求,請為它們分別創建不同的池。

通過為組織常用的每種實例類型和Databricks運行時創建一個池,可以最小化實例獲取時間。例如,如果大多數數據工程集群使用實例類型A,數據科學集群使用實例類型B,分析集群使用實例類型C,則為每種實例類型創建一個池。

將池配置為對執行時間短且執行時間要求嚴格的作業使用按需實例。使用按需實例來防止已獲得的實例在現貨市場上被出價更高的人搶走。

配置池,為支持交互式開發或優先考慮節省成本而不是可靠性的作業的集群使用現貨實例。

標記池來管理成本和賬單

將池標記到正確的成本中心允許您管理成本和使用退款。您可以使用多個自定義標記將多個成本中心關聯到一個池。但是,理解從池創建集群時如何傳播標記是很重要的。來自池的標記會傳播到底層雲提供程序實例,但集群的標記不會。將管理雲提供商計算成本的退款所需的所有自定義標記應用到池中。

池標記和集群標記都傳播到Databricks計費。您可以使用群集和池標記的組合來管理Databricks單元的收費。

要了解更多信息,請參見使用集群和池標記監視使用情況

通過配置資源池來控製成本

您可以使用以下配置選項來幫助控製池的成本:

  • 設置最小空閑實例設置為0,以避免為運行的實例不工作而付費。這樣做的代價是,當集群需要獲取一個新實例時,時間可能會增加。

  • 設置空閑實例自動終止在實例從集群中釋放和從池中刪除之間提供緩衝的時間。將此設置為允許您最小化成本的時間段,同時確保調度作業的實例可用性。例如,任務A計劃在上午8:00運行,需要40分鍾才能完成。作業B計劃在上午9:00運行,需要30分鍾才能完成。將“空閑實例自動終止”的值設置為20分鍾,以確保任務A完成時返回池的實例在任務B開始時可用。除非它們被另一個集群認領,否則這些實例將在作業B結束20分鍾後終止。

  • 設置最大容量基於預期的使用。這將設置池中已使用和空閑實例的最大數量的上限。如果作業或集群以最大容量從池請求實例,則請求失敗,集群不會獲得更多實例。因此,Databricks建議隻有在有嚴格的實例配額或預算約束時才設置最大容量。

預先配置池

為了充分利用池,可以預填充新創建的池。設置最小空閑池配置中大於零的實例。或者,如果您按照建議將此值設置為零,則使用starter作業來確保新創建的池具有可供集群訪問的可用實例。

使用啟動作業方法,將具有靈活執行時間要求的作業安排在具有更嚴格性能要求的作業之前運行,或在用戶開始使用交互式集群之前運行。作業完成後,用於作業的實例被釋放回池。集最小空閑實例設置為0,並設置空閑實例自動終止足夠高的時間,以確保空閑實例對後續作業仍然可用。

使用啟動作業允許池實例啟動、填充池,並對下遊作業或交互式集群保持可用性。