用於機器學習的Databricks運行時

Databricks Runtime for Machine Learning (Databricks Runtime ML)自動創建針對機器學習優化的集群。Databricks Runtime ML集群包括最流行的機器學習庫,如TensorFlow、PyTorch、Keras和XGBoost,還包括分布式培訓所需的庫,如Horovod。使用Databricks Runtime ML可以加速集群的創建,並確保安裝的庫版本是兼容的。

有關使用Databricks進行機器學習和深度學習的完整信息,請參見Databricks機器學習指南

有關每個Databricks Runtime ML版本的內容的信息,請參見發布說明

ML是在Databricks Runtime上構建的。例如,Databricks Runtime 7.3 LTS For Machine Learning是構建在Databricks Runtime 7.3 LTS之上的。基本Databricks運行時中包含的庫在Databricks運行時中列出發布說明

介紹Databricks運行時的機器學習

本教程是為Databricks Runtime ML的新用戶設計的。它需要大約10分鍾的時間來學習,並展示了一個完整的端到端示例,包括加載表格數據、訓練模型、分布式超參數調優和模型推斷。它還說明了如何使用MLflow API和MLflow模型注冊表。

請注意

下麵的筆記本可能包括穀歌雲上的Databricks的這個版本所沒有的功能。

磚教程的筆記本

Databricks Runtime ML中包含的庫

Databricks Runtime ML包含各種流行的ML庫。這些庫在每個版本中都進行了更新,以包括新的特性和補丁。

Databricks已將受支持的庫的一個子集指定為頂級庫。對於這些庫,Databricks提供了更快的更新節奏,在每個運行時版本中更新到最新的包版本(禁止依賴衝突)。Databricks還為頂級庫提供高級支持、測試和嵌入式優化。

有關頂層庫和其他提供的庫的完整列表,請參閱關於每個可用運行時的以下文章:

如何使用Databricks Runtime ML

除了預安裝的庫之外,Databricks Runtime ML與Databricks Runtime在集群配置和管理Python包的方式上也有所不同。

使用Databricks Runtime ML創建集群

當你創建一個集群,在“Databricks Runtime version”下拉框中選擇“Databricks Runtime ML版本”。支持CPU和gpu的ML運行時都可用。

選擇“Databricks Runtime ML”

如果選擇了啟用gpu的ML運行時,係統將提示您選擇兼容的驅動程序類型工作類型.不兼容的實例類型在下拉列表中顯示為灰色。支持gpu的實例類型列在GPU-Accelerated標簽。

重要的

您的工作空間中的庫自動安裝到所有集群在使用Databricks Runtime ML創建集群之前,請先清除在所有集群上自動安裝衝突庫的複選框。看到釋放筆記參閱Databricks Runtime ML每個版本中包含的庫列表。

管理Python包

在Databricks Runtime 9.0 ML及以上版本中virtualenv包管理器用於安裝Python包。所有Python包都安裝在單一環境中:/磚/ python3

在Databricks Runtime 8.4 ML及以下版本中Conda包管理器用於安裝Python包。所有Python包都安裝在單一環境中:/磚/ python2在使用Python 2和/磚/ python3在使用Python 3的集群上。不支持切換(或激活)Conda環境。

有關管理Python庫的信息,請參見

支持自動機器學習

Databricks Runtime ML包含自動化模型開發過程的工具,並幫助您高效地找到性能最佳的模型。

  • AutoML自動創建、調優和計算一組模型,並為每次運行創建一個包含源代碼的Python筆記本,以便您可以檢查、再現和修改代碼。

  • 管理MLFlow管理端到端模型生命周期,包括跟蹤實驗運行,部署和共享模型,以及維護集中的模型注冊表。

  • Hyperopt,以SparkTrials類,自動化和分發ML模型參數調優。

限製

Databricks Runtime ML不支持:

  • TableACLs集群

  • 集群spark.databricks.pyspark.enableProcessIsolation配置設置為真正的