庫
筆記
此後,在Google Cloud上的Databricks上無法使用CLI。
要使在群集上運行的筆記本電腦和作業可用的第三方或自定義代碼,您可以安裝庫。可以用Python,Java,Scala和R編寫庫。您可以上傳Java,Scala和Python庫,並指向PYPI,MAVEN和CRAN存儲庫中的外部軟件包。
本文重點是在工作區UI中執行庫任務。您也可以使用圖書館CLI或者庫API 2.0。
小費
Databricks在Databricks運行時包含許多常見的庫。要查看Databricks運行時包含哪些庫,請查看係統環境小節Databricks運行時發行注釋適用於您的數據映射版本。
重要的
Databricks不調用Pythonatexit
筆記本或作業完成處理時功能。如果您使用注冊的Python庫atexit
處理程序,您必須在退出之前確保代碼調用所需的功能。
安裝python卵被棄用,並將在未來的數據鍵運行時發布中刪除。使用Python車輪或安裝PYPI的軟件包。
您可以以三種模式安裝庫:工作空間,安裝群集和筆記本電腦。
工作區庫作為本地存儲庫,您可以從中創建群集安裝的庫。工作區庫可能是您的組織創建的自定義代碼,也可能是您組織已標準化的開源庫的特定版本。
集群庫可以在集群上運行的所有筆記本電腦使用。您可以直接從PYPI或MAVEN等公共存儲庫中安裝群集庫,也可以從先前安裝的工作區庫中創建一個庫。
可用於Python和R的筆記本電腦庫庫,允許您安裝庫並創建一個範圍內的筆記本電腦會話的環境。這些庫不影響在同一集群上運行的其他筆記本。筆記本電腦分配的庫不持續,必須重新安裝每個會話。當您需要特定筆記本的自定義環境時,請使用筆記本庫庫。
本節涵蓋:
Python環境管理
下表提供了可以使用Databricks安裝Python庫的選項的概述。
筆記
默認情況下,使用%PIP魔術命令將使用%PIP魔術命令進行筆記本庫的庫中,在所有受支持的Databricks Runtime和Databricks Runtime ML版本中。看要求有關詳細信息。
帶有圖書館實用程序的筆記本庫僅在Databricks運行時可用。它們在Databricks運行時ML或Databricks運行時沒有用於基因組學。
Python軟件包來源 |
||||
---|---|---|---|---|
PYPI |
利用 |
利用 |
選擇PYPI作為來源。 |
添加新 |
私人PYPI鏡子,例如Nexus或Artifactory |
利用 |
不支持。 |
不支持。 |
|
VC,例如GitHub,帶有原始源 |
利用 |
不支持。 |
選擇PYPI作為來源並將存儲庫URL指定為軟件包名稱。 |
添加新 |
帶有原始資源的私人風險投資 |
不支持。 |
不支持。 |
不支持。 |
|
DBFS |
利用 |
利用 |
選擇DBFS/GCS作為來源。 |
添加新 |
GCS |
利用 |
利用 |
選擇DBFS/GCS作為來源。 |
添加新 |