管理集群

本文描述如何管理數據磚集群,包括顯示、編輯、啟動、終止、刪除、控製訪問和監控性能和日誌。

顯示集群

查看集群在工作區,點擊計算圖標計算在側邊欄。

左邊是兩列表示如果集群已經固定,集群的狀態。懸停在地位上獲得更多的信息。

銷一個集群

集群是終止後30天,永久刪除。後保持一個通用的集群配置集群終止超過30天,管理員可以銷集群。100集群可以固定。

管理員可以銷一個集群的集群列表或集群詳細信息頁麵通過點擊銷圖標。

你也可以調用集群API端點以編程方式銷集群。

查看集群配置作為JSON文件

有時它可以幫助查看您的集群配置為JSON。這是特別有用,當你想創建類似的集群使用集群API。當你把現有的集群,去配置選項卡上,單擊JSON在右上角的選項卡中,複製JSON,粘貼到你的API調用。JSON的觀點是隻讀的。

編輯一個集群

您可以編輯UI集群的集群配置細節。你也可以調用集群API端點編輯集群以編程方式。

請注意

  • 筆記本和工作在集群保持連接後編輯。

  • 庫安裝在集群編輯後繼續安裝。

  • 如果您的編輯任何屬性運行集群(集群的規模和權限除外),您必須重新啟動它。這可以破壞用戶目前使用集群。

  • 你隻能編輯運行或終止集群。但是,您可以更新權限為集群,並不在這些州,在集群上的細節頁麵。

克隆一個集群

克隆現有集群,選擇克隆從集群的烤肉串菜單烤肉串菜單(也稱為菜單後按enter鍵)。

選擇克隆後,集群與集群配置創建UI打開預填充。克隆不包括以下屬性:

  • 集群的權限

  • 安裝庫

  • 連接筆記本電腦

控製訪問集群

集群內的訪問控製管理員設置頁麵允許工作區集群管理員給細粒度訪問其他用戶。有兩種類型的集群訪問控製:

  • 創建集群許可:工作區管理員可以選擇允許哪些用戶創建集群。

  • 集群級別權限:用戶可以管理允許一個集群可以配置是否可以連接到其他用戶,重啟,調整和管理集群。

為一個集群編輯權限,選擇編輯權限從集群的烤肉串菜單烤肉串菜單。

更多關於集群和集群級別權限訪問控製,明白了集群訪問控製

終止一個集群

保存集群資源,你可以終止一個集群。終止集群的配置存儲,以便它可以重用(或者,在工作的情況下,自動啟動在稍後的時間。您可以手動終止集群或配置集群在一個指定的靜止期自動終止。當終止集群的數量超過150,最古老的集群被刪除。

除非一個集群固定或者重新啟動,它將自動終止後30天,永久刪除。

終止集群出現在集群列表在左邊的灰色圓集群名稱。

請注意

當您運行一個工作在一個新工作的集群(通常建議),集群終止和重啟當工作完成時不可用。另一方麵,如果你安排工作的運行現有通用的集群已經終止,集群自動啟動

手動終止

您可以手動終止集群的集群列表(點擊廣場在集群上的行)或集群詳細信息頁麵(通過點擊終止)。

自動終止

您還可以設置自動終止一個集群。在創建集群的過程中,你可以在幾分鍾內指定一個靜止期之後,你想要終止的集群。

如果當前時間和最後一個命令的區別在集群上運行超過指定的靜止期,磚自動終止集群。

集群被認為是不活躍的,當所有命令的集群,包括火花工作,結構化流,和JDBC調用,執行完成。這並不包括命令由SSH-ing到集群,運行bash命令。

警告

  • 集群不活動造成DStreams的使用報告。這意味著一個auto-terminating集群可能DStreams運行時終止。關掉自動終止為集群運行DStreams或考慮使用結構化的流。

  • 自動終止功能顯示器隻有火花工作,而不是用戶定義的局部流程。因此,如果所有火花工作已經完成了,一個集群可以終止,即使局部流程正在運行。

  • 閑置集群持續積累DBU和雲實例指控不活動期間在終止之前。

配置自動終止

您可以配置自動終止的UI創建集群。確保檢查框,輸入的分鍾數終止後的___分鍾的活動設置。

你可以選擇自動終止,清算自動終止複選框或通過指定一個不活躍的時期0

請注意

自動終止是最新最好的支持引發版本。舊的火花版本有已知的限製,可能會導致不準確的報告集群活動。例如,集群運行JDBC, R,或流命令可以報告過期的活動時間,導致過早終止集群。請升級到最新的火花版本受益bug修複和改進自動終止。

意外終止

有時一個集群是意外終止,而不是由於手動終止或配置自動終止。

終止的原因和補救措施,看到知識庫

刪除一個集群

刪除一個集群終止集群並刪除它的配置。刪除一個集群,選擇刪除從集群的烤肉串菜單菜單。

警告

你不能取消這個行動。

刪除一個固定的集群,它首先必須由管理員拔掉。

你也可以調用集群API端點以編程方式刪除一個集群。

重新啟動集群

你可以重啟之前終止集群的集群列表中,集群細節頁麵,或一個筆記本。你也可以調用集群API端點開始集群以編程方式。

磚使用其獨特標識一個集群集群ID。當你開始終止集群時,磚重新創建集群與相同的ID,自動安裝的所有庫,重新接上筆記本。

重新啟動集群更新最新的圖片

當你重新啟動集群,它得到了計算資源的最新圖像容器和VM主機。重要的是要定期重啟等長期運行的集群用於處理流數據。

你有責任定期重啟所有計算資源以保持圖像最新的圖像的版本。

重要的

  • 如果你使合規安全概要你的帳戶或工作區,長時間運行的集群自動重啟後25天。磚建議工作區管理員手動重新啟動集群在一個預定的維護窗口。這樣可以減少雙方的風險破壞計劃的工作。

  • 如果你的工作空間的一部分集群的公共預覽自動更新,25日限製並不適用。重新啟動集群隻有需要在預定的維護窗口。

筆記本的例子:找到長期運行的集群

如果你是一個工作空間管理,您可以運行一個腳本,它決定了您的每個集群已經運行多長時間,和可選,重啟他們是否超過指定數量的天。磚提供這個腳本作為一個筆記本。

請注意

如果你的工作空間的一部分集群的公共預覽自動更新,你可能不需要這個腳本。集群自動重新啟動期間如果需要預定的維護窗口。

腳本的第一行定義配置參數:

  • min_age_output:一個集群的最大天數可以運行。默認值為1。

  • perform_restart:如果真正的隨著年齡的增長,腳本重新啟動集群大於規定的天數min_age_output。默認值是確定了長期運行的集群,但不重新啟動它們。

  • secret_configuration:替換REPLACE_WITH_SCOPEREPLACE_WITH_KEY與一個秘密範圍和關鍵的名字。設置秘密的更多細節,請參閱筆記本。

警告

如果你設置perform_restart真正的,腳本自動重啟合格的集群,它可以導致積極的工作失敗,重新打開筆記本。減少的風險,擾亂你的工作空間的關鍵業務工作,計劃一個預定的維護窗口,一定要通知用戶工作區。

識別並選擇重新啟動筆記本長時間運行的集群

在新標簽頁打開筆記本

集群自動啟動工作和JDBC / ODBC查詢

當一個作業分配給集群將終止運行,或者你連接到一個終止集群從JDBC / ODBC接口,自動重新啟動集群。看到創建一個工作JDBC連接

集群自動啟動允許您配置集群auto-terminate無需人工幹預重新啟動集群調度工作。此外,你可以通過調度時間表集群的初始化工作終止集群上運行。

前一個集群自動重啟,集群工作訪問控製權限檢查。

請注意

如果您的集群成立於磚平台版本2.70或更早,沒有自動啟動:工作計劃終止集群上運行就會Beplay体育安卓版本失敗。

查看集群信息在Apache火花UI

您可以查看詳細信息引發就業選擇火花UI選項卡在集群上的細節頁麵。

如果你重啟終止集群,火花UI顯示信息重新啟動集群,集群沒有終止的曆史信息。

查看集群日誌

磚提供三種日誌相關的活動:

  • 集群事件日誌,捕捉集群生命周期事件像創建、終止和配置編輯。

  • Apache火花司機和工人日誌,您可以用於調試。

  • 集群的初始化腳本日誌,這對於調試init腳本是有價值的。

本節討論集群事件日誌和司機和工人日誌。初始化腳本日誌的詳細信息,請參閱Init腳本日誌

集群事件日誌

集群事件日誌顯示重要的集群生命周期事件由用戶操作手動或自動觸發的磚。此類事件影響整個集群的操作和運行在集群的工作。

所支持的事件類型,請參閱集群API數據結構。

事件存儲60天,這是與其他數據保留時間在磚。

查看集群事件日誌

查看集群的事件日誌,選擇事件日誌在集群的細節頁麵選項卡。

關於一個事件的更多信息,請點擊日誌的行,然後點擊JSON詳情選項卡。

集群的司機和工人日誌

從你的筆記本電腦直接打印和日誌語句,工作,和圖書館去引發司機日誌。您可以訪問這些日誌文件的司機日誌選項卡在集群上的細節頁麵。點擊下載日誌文件的名稱。

這些日誌有三個輸出:

  • 標準輸出

  • 標準錯誤

  • Log4j日誌

查看火花工作日誌,使用火花UI選項卡。你也可以配置日誌交付地點集群。工人和集群日誌都是送到您所指定的位置。

監視性能

幫助你監測數據磚的性能集群,磚從集群提供指標的細節頁麵。對於磚12.2運行時,下麵的,磚提供訪問權神經節指標。磚運行時13.0及以上,集群指標提供數據磚。

你也可以安裝Datadog代理集群節點上發送Datadog度量Datadog賬戶。

集群指標

集群指標是默認磚運行時的13.0及以上的監測工具。訪問集群指標UI,導航到指標選項卡在集群上的細節頁麵。

您可以查看曆史指標通過選擇時間範圍使用日期選擇過濾器。收集度量每一分鍾。您還可以通過單擊獲得最新的指標刷新按鈕。有關更多信息,請參見看來生活和曆史集群指標

Ganglia指標

請注意

Ganglia指標隻可用於磚運行時的12.2及以下。

訪問Ganglia UI,導航到指標選項卡在集群上的細節頁麵。Ganglia UI中可用CPU指標磚運行時。GPU指標可用於GPU-enabled集群。

查看現場指標,點擊Ganglia UI鏈接。

查看曆史指標,點擊快照文件。小時之前的快照包含聚合指標選擇的時間。

請注意

Ganglia和集裝箱碼頭工人不受支持。如果你使用一個集裝箱碼頭工人與您的集群中,神經節指標將不可用。

配置Ganglia指標集合

默認情況下,磚每15分鍾收集Ganglia指標。配置收集期間,設置DATABRICKS_GANGLIA_SNAPSHOT_PERIOD_MINUTES環境變量使用一個init腳本或在spark_env_vars字段創建新集群API

筆記本的例子:Datadog指標

Datadog指標

你可以安裝Datadog代理集群節點上發送Datadog度量Datadog賬戶。以下筆記本演示如何安裝一個Datadog代理集群上使用集群級init腳本

在所有集群安裝Datadog代理,使用全球init腳本後測試集群級init腳本。

筆記本安裝Datadog代理init腳本

在新標簽頁打開筆記本

解除現貨實例

請注意

這個特性可以在磚運行時8.0及以上。

因為現貨實例可以降低成本,使用現貨實例而不是按需創建集群實例運行作業是一種常見的方法。然而,現貨實例可以由雲提供商搶占調度機製。搶占現貨實例可能導致工作運行的問題,包括:

  • 洗牌獲取失敗

  • 洗牌數據丟失

  • 抽樣數據丟失

  • 工作的失敗

您可以啟用退役來幫助解決這些問題。退役利用雲提供商通常發送的通知之前現貨實例退役。當一個現貨實例包含一個執行人收到搶占通知,退役過程將嚐試洗牌和抽樣數據遷移到健康的執行人。最終搶占前的持續時間通常是30秒到2分鍾,這取決於雲提供商。

磚建議啟用數據遷移時退役也啟用。一般來說,錯誤的可能性會減少更多的數據遷移,包括洗牌抓取失敗,數據丟失踱來踱去,抽樣數據丟失。數據遷移也會導致更少的re-computation和節省成本。

請注意

退役是最大的努力,不保證所有數據可以遷移之前最後的搶占。退役不能保證對抓取洗牌洗牌獲取故障運行時任務執行人的數據。

啟用退役後,任務失敗造成的現貨實例搶占不添加到失敗的總數。任務失敗造成的搶占不算作失敗因為失敗的原因是外部的任務,不會導致工作失敗。

使退役

一個集群上啟用退役,進入以下屬性火花選項卡下高級選項在集群中配置界麵。

  • 為應用程序啟用退役,進入這個屬性火花配置字段:

    火花解除啟用真正的
  • 使洗牌數據遷移在退役,進入這個屬性火花配置字段:

    火花存儲解除啟用真正的火花存儲解除shuffleBlocks啟用真正的
  • 在退役,使抽樣緩存數據遷移,進入這個屬性火花配置字段:

    火花存儲解除啟用真正的火花存儲解除rddBlocks啟用真正的

    請注意

    當抽樣StorageLevel複製設置為大於1,磚不建議使抽樣數據遷移,因為副本確保抽樣不丟失數據。

  • 使工人退役,進入這個屬性環境變量字段:

    SPARK_WORKER_OPTS=“-Dspark.decommission.enabled = true”

查看解除狀態和損失原因在UI中

訪問一個工人從UI的解除狀態,導航到火花集群UI——的主人選項卡。

退役結束時,您可以查看該遺囑執行人的損失原因的火花UI >執行人選項卡在集群上的細節頁麵。