工作區庫
工作區庫作為本地存儲庫,從中創建集群安裝的庫。工作區庫可能是您的組織創建的自定義代碼,也可能是您的組織標準化的開源庫的特定版本。
必須在集群上安裝工作區庫,才能在筆記本或作業中使用它。
共享文件夾中的工作空間庫對工作空間中的所有用戶可用,而用戶文件夾中的工作空間庫僅對該用戶可用。
創建一個工作區庫
上傳Jar、Python卵或Python輪
請注意
安裝Python eggs已棄用,並將在未來的Databricks Runtime版本中刪除。
在庫源按鈕列表中,選擇上傳.
選擇Jar,Python蛋,或Python Whl.
可選地輸入庫名稱。
將Jar、Egg或Whl拖到下拉框或單擊下拉框並導航到文件。文件上傳至
dbfs: / FileStore / jar
.點擊創建.庫狀態屏幕將顯示出來。
(可選)在集群上安裝庫.
引用一個上傳的jar、Python蛋或Python輪
如果您已經將jar、egg或wheel上傳到對象存儲中,則可以在工作區庫中引用它。
您可以選擇DBFS中的庫或存儲在S3中的庫。
選擇DBFS / S3在庫源按鈕列表中。
選擇Jar,Python蛋,或Python Whl.
可選地輸入庫名稱。
指定庫的DBFS或S3路徑。
點擊創建.庫狀態屏幕將顯示出來。
(可選)在集群上安裝庫.
PyPI包
在庫源按鈕列表中,選擇PyPI.
輸入PyPI包名。要安裝某個庫的特定版本,請使用以下格式安裝該庫:
<圖書館> = = <版本>
.例如,scikit-learn = = 0.19.1
.在Repository字段中,可選地輸入PyPI存儲庫URL。
點擊創建.庫狀態屏幕將顯示出來。
(可選)在集群上安裝庫.
Maven或Spark包
在庫源按鈕列表中,選擇Maven.
指定Maven坐標。做以下其中一件事:
在Coordinate字段中,輸入要安裝的庫的Maven坐標。Maven坐標在表單中
groupId: artifactId:版本
;例如,com.databricks: spark-avro_2.10:1.0.0
.如果您不知道確切的坐標,請輸入庫名稱並單擊搜索包.將顯示匹配包的列表。若要顯示包的詳細信息,請單擊其名稱。您可以按名稱、組織和等級對包進行排序。您還可以通過在搜索欄中編寫查詢來過濾結果。結果會自動刷新。
選擇Maven中央或火花包在左上方的下拉列表中。
在“發布”列中選擇軟件包版本。
點擊+選擇在一個包裹旁邊。用所選的包和版本填充Coordinate字段。
在Repository字段中,可選地輸入Maven存儲庫URL。
請注意
不支持內部Maven存儲庫。
在除外責任字段,可選地提供
groupId
和artifactId
您想要排除的依賴項;例如,log4j: log4j
.點擊創建.庫狀態屏幕將顯示出來。
(可選)在集群上安裝庫.
查看工作區庫詳細信息
轉到包含庫的工作區文件夾。
單擊庫名稱。
庫詳細信息頁麵顯示正在運行的集群和安裝狀態圖書館的。如果安裝了庫,則該頁包含到包主機的鏈接。如果庫已上傳,頁麵將顯示到上傳的包文件的鏈接。