模型訓練示例

本節包括示例,展示如何使用許多流行的開源庫在Databricks上訓練機器學習和深度學習模型。

你也可以使用AutoML,它會自動為模型訓練準備一個數據集,使用scikit-learn和XGBoost等開源庫執行一組試驗,並為每次試驗運行創建一個包含源代碼的Python筆記本,以便您可以審查、複製和修改代碼。

有關演示如何訓練使用Unity Catalog中的數據並將預測寫回Unity Catalog的機器學習模型的示例筆記本,請參見使用Unity Catalog數據進行Python ML模型訓練

機器學習的例子

筆記本(s)

特性

scikit-learn

機器學習入門

分類模型,MLflow,使用Hyperopt和MLflow進行自動超參數調優

scikit-learn

使用模型注冊表進行機器學習

分類模型,MLflow,自動超參數調優與Hyperopt和MLflow,模型注冊

scikit-learn

的端到端示例

分類模型,MLflow,使用Hyperopt和MLflow的自動超參數調優,XGBoost,模型注冊表,模型服務

MLlib

MLlib例子

二叉分類,決策樹,GBT回歸,結構化流,自定義轉換器

xgboost

XGBoost例子

Python, PySpark和Scala,單節點工作負載和分布式培訓

深度學習的例子

也看到在Databricks上的深度學習最佳實踐

筆記本

特性

TensorFlow Keras

深度學習快速入門

TensorFlow Keras, TensorBoard, Hyperopt, MLflow

TensorFlow(單節點)

TensorFlow教程與MNIST數據集

TensorFlow, TensorBoard

PyTorch(單節點)

PyTorch教程與MNIST數據集

PyTorch

關於分布式深度學習訓練,請參見:

筆記本

特性

HorovodRunner (TensorFlow Keras)

TensorFlow Keras MNIST示例

TensorFlow Keras單節點分布式訓練

HorovodRunner (PyTorch)

PyTorch MNIST示例

PyTorch單節點進行分布式訓練

HorovodRunner

Horovod時間表

Horovod時間表

horovod.spark(PyTorch和Keras)

horovod.sparkpackage

horovod.spark用於ML管道Keras和PyTorch的估計器API

spark-tensorflow-distributor

使用TensorFlow進行分布式訓練

在Apache Spark集群上使用TensorFlow進行分布式訓練

超參數調優示例

有關Databricks中超參數調優的一般信息,請參見Hyperparameter調優

筆記本

特性

Hyperopt

分布式hyperopt

分布式hyperopt, scikit-learn, MLflow

Hyperopt

比較模型

利用分布式超選擇同時搜索不同模型類型的超參數空間

Hyperopt

分布式訓練算法和超opt

Hyperopt, MLlib

Hyperopt

Hyperopt最佳實踐

不同大小數據集的最佳實踐