工作區庫

工作區庫作為本地存儲庫,從中創建集群安裝的庫。工作區庫可能是您的組織創建的自定義代碼,也可能是您的組織標準化的開源庫的特定版本。

必須在集群上安裝工作區庫,才能在筆記本或作業中使用它。

共享文件夾中的工作空間庫對工作空間中的所有用戶可用,而用戶文件夾中的工作空間庫僅對該用戶可用。

創建一個工作區庫

  1. 右鍵單擊要存儲庫的工作區文件夾。

  2. 選擇創建>庫

    創建庫

    出現“創建庫”對話框。

    庫選項
  3. 選擇庫源並遵循適當的程序:

上傳Jar、Python卵或Python輪

請注意

安裝Python eggs已棄用,並將在未來的Databricks Runtime版本中刪除。

  1. 在庫源按鈕列表中,選擇上傳

  2. 選擇JarPython蛋,或Python Whl

  3. 可選地輸入庫名稱。

  4. 將Jar、Egg或Whl拖到下拉框或單擊下拉框並導航到文件。文件上傳至dbfs: / FileStore / jar

  5. 點擊創建.庫狀態屏幕將顯示出來。

  6. (可選)在集群上安裝庫

引用一個上傳的jar、Python蛋或Python輪

如果您已經將jar、egg或wheel上傳到對象存儲中,則可以在工作區庫中引用它。

您可以選擇DBFS中的庫或存儲在S3中的庫。

  1. 選擇DBFS / S3在庫源按鈕列表中。

  2. 選擇JarPython蛋,或Python Whl

  3. 可選地輸入庫名稱。

  4. 指定庫的DBFS或S3路徑。

  5. 點擊創建.庫狀態屏幕將顯示出來。

  6. (可選)在集群上安裝庫

PyPI包

  1. 在庫源按鈕列表中,選擇PyPI

  2. 輸入PyPI包名。要安裝某個庫的特定版本,請使用以下格式安裝該庫:<圖書館> = = <版本>.例如,scikit-learn = = 0.19.1

  3. 在Repository字段中,可選地輸入PyPI存儲庫URL。

  4. 點擊創建.庫狀態屏幕將顯示出來。

  5. (可選)在集群上安裝庫

Maven或Spark包

  1. 在庫源按鈕列表中,選擇Maven

  2. 指定Maven坐標。做以下其中一件事:

    • 在Coordinate字段中,輸入要安裝的庫的Maven坐標。Maven坐標在表單中groupId: artifactId:版本;例如,com.databricks: spark-avro_2.10:1.0.0

    • 如果您不知道確切的坐標,請輸入庫名稱並單擊搜索包.將顯示匹配包的列表。若要顯示包的詳細信息,請單擊其名稱。您可以按名稱、組織和等級對包進行排序。您還可以通過在搜索欄中編寫查詢來過濾結果。結果會自動刷新。

      1. 選擇Maven中央火花包在左上方的下拉列表中。

      2. 在“發布”列中選擇軟件包版本。

      3. 點擊+選擇在一個包裹旁邊。用所選的包和版本填充Coordinate字段。

  3. 在Repository字段中,可選地輸入Maven存儲庫URL。

    請注意

    不支持內部Maven存儲庫。

  4. 除外責任字段,可選地提供groupIdartifactId您想要排除的依賴項;例如,log4j: log4j

  5. 點擊創建.庫狀態屏幕將顯示出來。

  6. (可選)在集群上安裝庫

凹口包

  1. 在庫源按鈕列表中,選擇凹口

  2. 在Package字段中,輸入包的名稱。

  3. 在Repository字段中,可選地輸入CRAN存儲庫URL。

  4. 點擊創建.將顯示庫詳細信息屏幕。

  5. (可選)在集群上安裝庫

請注意

CRAN鏡像服務於庫的最新版本。因此,如果您在不同的時間將庫附加到不同的集群,您可能最終會得到不同版本的R包。若要了解如何在Databricks上管理和修複R包版本,請參閱知識庫

查看工作區庫詳細信息

  1. 轉到包含庫的工作區文件夾。

  2. 單擊庫名稱。

庫詳細信息頁麵顯示正在運行的集群和安裝狀態圖書館的。如果安裝了庫,則該頁包含到包主機的鏈接。如果庫已上傳,頁麵將顯示到上傳的包文件的鏈接。

移動工作區庫

  1. 轉到包含庫的工作區文件夾。

  2. 單擊下拉箭頭菜單下拉到庫名稱的右側並選擇移動.將顯示文件夾瀏覽器。

  3. 單擊目標文件夾。

  4. 點擊選擇

  5. 點擊確認並移動

刪除一個工作區庫

重要的

在刪除工作區庫之前,您應該卸載它來自所有集群。

刪除一個工作空間庫。

  1. 將庫移動到Trash文件夾。

  2. 永久刪除垃圾文件夾中的庫或清空垃圾文件夾。