筆記

此後,在Google Cloud上的Databricks上無法使用CLI。

要使在群集上運行的筆記本電腦和作業可用的第三方或自定義代碼,您可以安裝庫。可以用Python,Java,Scala和R編寫庫。您可以上傳Java,Scala和Python庫,並指向PYPI,MAVEN和CRAN存儲庫中的外部軟件包。

本文重點是在工作區UI中執行庫任務。您也可以使用圖書館CLI或者庫API 2.0

小費

Databricks在Databricks運行時包含許多常見的庫。要查看Databricks運行時包含哪些庫,請查看係統環境小節Databricks運行時發行注釋適用於您的數據映射版本。

重要的

Databricks不調用Pythonatexit筆記本或作業完成處理時功能。如果您使用注冊的Python庫atexit處理程序,您必須在退出之前確保代碼調用所需的功能。

安裝python卵被棄用,並將在未來的數據鍵運行時發布中刪除。使用Python車輪或安裝PYPI的軟件包。

您可以以三種模式安裝庫:工作空間,安裝群集和筆記本電腦。

  • 工作區庫作為本地存儲庫,您可以從中創建群集安裝的庫。工作區庫可能是您的組織創建的自定義代碼,也可能是您組織已標準化的開源庫的特定版本。

  • 集群庫可以在集群上運行的所有筆記本電腦使用。您可以直接從PYPI或MAVEN等公共存儲庫中安裝群集庫,也可以從先前安裝的工作區庫中創建一個庫。

  • 可用於Python和R的筆記本電腦庫庫,允許您安裝庫並創建一個範圍內的筆記本電腦會話的環境。這些庫不影響在同一集群上運行的其他筆記本。筆記本電腦分配的庫不持續,必須重新安裝每個會話。當您需要特定筆記本的自定義環境時,請使用筆記本庫庫。

本節涵蓋:

Python環境管理

下表提供了可以使用Databricks安裝Python庫的選項的概述。

筆記

  • 默認情況下,使用%PIP魔術命令將使用%PIP魔術命令進行筆記本庫的庫中,在所有受支持的Databricks Runtime和Databricks Runtime ML版本中。看要求有關詳細信息。

  • 帶有圖書館實用程序的筆記本庫僅在Databricks運行時可用。它們在Databricks運行時ML或Databricks運行時沒有用於基因組學。

Python軟件包來源

帶有%pip的筆記本庫庫

帶有圖書館實用程序的筆記本庫庫

集群庫

職位庫Jobs API

PYPI

利用%pip安裝。看例子

利用dbutils.library.installPypi

選擇PYPI作為來源

添加新PYPI反對作業庫,並指定包裹場地。

私人PYPI鏡子,例如Nexus或Artifactory

利用%pip安裝- index-url選項。秘密管理可用。看例子

利用dbutils.library.installPypi並指定回購爭論。

不支持。

不支持。

VC,例如GitHub,帶有原始源

利用%pip安裝並將存儲庫URL指定為軟件包名稱。看例子

不支持。

選擇PYPI作為來源並將存儲庫URL指定為軟件包名稱。

添加新PYPI反對作業庫,並將存儲庫URL指定為包裹場地。

帶有原始資源的私人風險投資

利用%pip安裝並用基本身份驗證作為軟件包名稱指定存儲庫URL。秘密管理可用。看例子

不支持。

不支持。

不支持。

DBFS

利用%pip安裝。看例子

利用dbutils.library.install(dbfs_path)

選擇DBFS/GCS作為來源

添加新或者whl反對作業庫,並指定DBFS路徑為包裹場地。

GCS

利用%pip安裝與預先簽名的URL一起。使用GCS協議的路徑gs://不支持。

利用dbutils.library.install(gs_path)

選擇DBFS/GCS作為來源

添加新或者whl反對作業庫,並指定GCS路徑為包裹場地。