集群庫

集群庫可以被運行在集群上的所有筆記本使用。您可以使用先前安裝的工作空間庫,或者使用初始化腳本,直接從PyPI或Maven等公共存儲庫安裝集群庫。

在集群上安裝庫

在集群上安裝庫主要有兩種方式:

  • 安裝一個工作區圖書館它已經被上傳到工作區。

  • 安裝僅用於特定集群的庫。

此外,如果您的庫需要自定義配置,您可能無法使用上麵列出的方法安裝它。相反,您可以使用init腳本它在集群創建時運行。

請注意

在集群上安裝庫時,已經附加到該集群的筆記本不會立即看到新庫。你必須先分離然後重新接上將筆記本發送到集群。

除了本文介紹的方法外,還可以使用Databricks Terraform提供商databricks_library

工作區圖書館

請注意

Databricks按照在集群上安裝的順序處理所有工作空間庫。如果庫之間存在依賴關係,您可能需要注意集群上的安裝順序。

要安裝工作空間中已經存在的庫,可以從集群UI或庫UI開始:

集群

  1. 點擊計算圖標計算在側邊欄中。

  2. 單擊集群名稱。

  3. 單擊選項卡。

  4. 點擊安裝新

  5. 在庫源按鈕列表中,選擇工作空間

  6. 選擇一個工作區庫。

  7. 點擊安裝

  8. 將庫配置為安裝在所有集群上。

    1. 單擊庫。

    2. 選擇在所有集群上自動安裝複選框。

    3. 點擊確認

圖書館

  1. 轉到包含庫的文件夾。

  2. 單擊庫名稱。

  3. 做以下其中一件事:

    • 要將庫配置為安裝在所有集群上,請選擇在所有集群上自動安裝複選框,然後單擊確認

      重要的

      此選項不會在運行Databricks Runtime 7.0及以上版本的集群上安裝庫。

    • 選中要在其上安裝庫的集群旁邊的複選框,然後單擊安裝

庫已安裝在集群上。

Cluster-installed圖書館

可以在特定集群上安裝庫,而不將其作為工作空間庫使用。

在集群上安裝庫。

  1. 點擊計算圖標計算在側邊欄中。

  2. 單擊集群名稱。

  3. 單擊選項卡。

  4. 點擊安裝新

  5. 按照其中一種方法創建工作區圖書館。點擊之後創建,庫已經安裝在集群上。

Init腳本

如果庫需要自定義配置,則可能無法使用工作區或集群庫接口安裝它。相反,您可以使用init腳本

下麵是一個初始化腳本的示例,它在集群初始化時使用pip在Databricks Runtime集群上安裝Python庫。

#!/bin/bash/databricks/python/bin/pip安裝astropy

從集群中卸載庫

請注意

從集群中卸載庫時,隻有在重新啟動集群時才會刪除該庫。在重新啟動集群之前,卸載庫的狀態顯示為等待重新啟動的卸載

卸載庫可以從集群或庫開始:

集群

  1. 點擊計算圖標計算在側邊欄中。

  2. 單擊集群名稱。

  3. 單擊選項卡。

  4. 選擇要從中卸載庫的集群旁邊的複選框,單擊卸載,然後確認。狀態變為等待重新啟動的卸載

圖書館

  1. 轉到包含庫的文件夾。

  2. 單擊庫名稱。

  3. 選擇要從中卸載庫的集群旁邊的複選框,單擊卸載,然後確認。狀態變為等待重新啟動的卸載

  4. 單擊集群名稱,進入集群詳細信息界麵。

點擊重新啟動確認卸載庫。庫將從集群的Libraries選項卡中刪除。

查看集群上安裝的庫

  1. 點擊計算圖標計算在側邊欄中。

  2. 單擊集群名稱。

  3. 單擊選項卡。對於每個庫,選項卡顯示名稱和版本、類型、安裝狀態,如果已上傳,則提供源文件。

更新集群安裝的庫

要更新集群安裝的庫,請卸載舊版本的庫並安裝新版本。