要使運行在集群上的筆記本電腦和作業可以使用第三方或自定義代碼,可以安裝一個庫。庫可以用Python、Java、Scala和r編寫。您可以上傳Java、Scala和Python庫,並指向PyPI、Maven和CRAN存儲庫中的外部包。

本文主要討論在工作區UI中執行庫任務。方法也可以管理庫庫CLI或者是庫API 2.0

提示

Databricks包含了Databricks運行時中的許多常用庫。要查看Databricks Runtime中包含哪些庫,請查看係統環境Databricks運行時發布說明為您的Databricks運行時版本。

重要的

Databricks不調用Pythonatexit當您的筆記本或作業完成處理時執行。如果你使用注冊的Python庫atexit處理程序,您必須確保您的代碼在退出之前調用所需的函數。

安裝Python eggs已棄用,並將在未來的Databricks Runtime版本中刪除。使用Python輪或從PyPI安裝包。

可以以三種方式安裝庫:工作區、集群安裝和筆記本作用域。

  • 工作區庫作為本地存儲庫,從中創建集群安裝的庫。工作區庫可能是您的組織創建的自定義代碼,也可能是您的組織標準化的開源庫的特定版本。

  • 集群庫可以被運行在集群上的所有筆記本使用。您可以直接從公共存儲庫(如PyPI或Maven)安裝集群庫,也可以從以前安裝的工作區庫創建集群庫。

  • 筆記本範圍的庫,可用於Python和R,允許您安裝庫並創建筆記本會話範圍的環境。這些庫不會影響在同一集群上運行的其他筆記本電腦。筆記本範圍的庫不會持久存在,必須為每個會話重新安裝。當您需要為特定的筆記本定製環境時,請使用筆記本範圍的庫。

本節包括:

Python環境管理

下表概述了可用於在Databricks中安裝Python庫的選項。

請注意

  • 使用magic命令的筆記本範圍庫在默認情況下是啟用的。看到需求獲取詳細信息。

  • 不讚成使用庫實用程序的筆記本範圍的庫。

Python包源

使用%pip的筆記本範圍的庫

帶有庫實用程序的筆記本範圍的庫(棄用)

集群庫

工作庫喬布斯API

PyPI

使用%皮普安裝.看到例子

使用dbutils.library.installPyPI

選擇PyPI作為源

添加一個新的pypi對象添加到作業庫中,並指定字段。

私有PyPI鏡像,如Nexus或Artifactory

使用%皮普安裝——index-url選擇。保密管理是可用的。看到例子

使用dbutils.library.installPyPI並指定回購論點。

不受支持的。

不受支持的。

vc,比如GitHub,使用原始源代碼

使用%皮普安裝並指定存儲庫URL作為包名。看到例子

不受支持的。

選擇PyPI作為源並指定存儲庫URL作為包名。

添加一個新的pypi對象指定為作業庫,並將存儲庫URL指定為字段。

帶有原始源代碼的私有VCS

使用%皮普安裝並指定具有基本身份驗證的存儲庫URL作為包名。保密管理是可用的。看到例子

不受支持的。

不受支持的。

不受支持的。

DBFS

使用%皮普安裝.看到例子

使用dbutils.library. install (dbfs_path)

選擇DBFS/S3作為源

添加一個新的whl對象指定為作業庫,並將DBFS路徑指定為字段。

S3

使用%皮普安裝連同一個預先簽名的URL。S3協議的路徑s3: / /不支持。

使用dbutils.library. install (s3_path)

選擇DBFS/S3作為源

添加一個新的whl對象指定為作業庫,並將S3路徑指定為字段。