庫
要使運行在集群上的筆記本電腦和作業可以使用第三方或自定義代碼,可以安裝一個庫。庫可以用Python、Java、Scala和r編寫。您可以上傳Java、Scala和Python庫,並指向PyPI、Maven和CRAN存儲庫中的外部包。
本文主要討論在工作區UI中執行庫任務。方法也可以管理庫庫CLI或者是庫API 2.0.
提示
Databricks包含了Databricks運行時中的許多常用庫。要查看Databricks Runtime中包含哪些庫,請查看係統環境第Databricks運行時發布說明為您的Databricks運行時版本。
重要的
Databricks不調用Pythonatexit
當您的筆記本或作業完成處理時執行。如果你使用注冊的Python庫atexit
處理程序,您必須確保您的代碼在退出之前調用所需的函數。
安裝Python eggs已棄用,並將在未來的Databricks Runtime版本中刪除。使用Python輪或從PyPI安裝包。
可以以三種方式安裝庫:工作區、集群安裝和筆記本作用域。
工作區庫作為本地存儲庫,從中創建集群安裝的庫。工作區庫可能是您的組織創建的自定義代碼,也可能是您的組織標準化的開源庫的特定版本。
集群庫可以被運行在集群上的所有筆記本使用。您可以直接從公共存儲庫(如PyPI或Maven)安裝集群庫,也可以從以前安裝的工作區庫創建集群庫。
筆記本範圍的庫,可用於Python和R,允許您安裝庫並創建筆記本會話範圍的環境。這些庫不會影響在同一集群上運行的其他筆記本電腦。筆記本範圍的庫不會持久存在,必須為每個會話重新安裝。當您需要為特定的筆記本定製環境時,請使用筆記本範圍的庫。
本節包括:
Python環境管理
下表概述了可用於在Databricks中安裝Python庫的選項。
請注意
使用magic命令的筆記本範圍庫在默認情況下是啟用的。看到需求獲取詳細信息。
不讚成使用庫實用程序的筆記本範圍的庫。
Python包源 |
帶有庫實用程序的筆記本範圍的庫(棄用) |
|||
---|---|---|---|---|
PyPI |
使用 |
使用 |
選擇PyPI作為源. |
添加一個新的 |
私有PyPI鏡像,如Nexus或Artifactory |
使用 |
不受支持的。 |
不受支持的。 |
|
vc,比如GitHub,使用原始源代碼 |
使用 |
不受支持的。 |
選擇PyPI作為源並指定存儲庫URL作為包名。 |
添加一個新的 |
帶有原始源代碼的私有VCS |
不受支持的。 |
不受支持的。 |
不受支持的。 |
|
DBFS |
使用 |
使用 |
選擇DBFS/S3作為源. |
添加一個新的 |
S3 |
使用 |
使用 |
選擇DBFS/S3作為源. |
添加一個新的 |