模型訓練示例
本節包括示例,展示如何使用許多流行的開源庫在Databricks上訓練機器學習和深度學習模型。
你也可以使用AutoML,它會自動為模型訓練準備一個數據集,使用scikit-learn和XGBoost等開源庫執行一組試驗,並為每次試驗運行創建一個包含源代碼的Python筆記本,以便您可以審查、複製和修改代碼。
有關演示如何訓練使用Unity Catalog中的數據並將預測寫回Unity Catalog的機器學習模型的示例筆記本,請參見使用Unity Catalog數據進行Python ML模型訓練.
機器學習的例子
包 |
筆記本(s) |
特性 |
---|---|---|
scikit-learn |
分類模型,MLflow,使用Hyperopt和MLflow進行自動超參數調優 |
|
scikit-learn |
分類模型,MLflow,自動超參數調優與Hyperopt和MLflow,模型注冊 |
|
scikit-learn |
分類模型,MLflow,使用Hyperopt和MLflow的自動超參數調優,XGBoost,模型注冊表,模型服務 |
|
MLlib |
二叉分類,決策樹,GBT回歸,結構化流,自定義轉換器 |
|
xgboost |
Python, PySpark和Scala,單節點工作負載和分布式培訓 |
深度學習的例子
包 |
筆記本 |
特性 |
---|---|---|
TensorFlow Keras |
TensorFlow Keras, TensorBoard, Hyperopt, MLflow |
|
TensorFlow(單節點) |
TensorFlow, TensorBoard |
|
PyTorch(單節點) |
PyTorch |
關於分布式深度學習訓練,請參見:
包 |
筆記本 |
特性 |
---|---|---|
HorovodRunner (TensorFlow Keras) |
TensorFlow Keras單節點分布式訓練 |
|
HorovodRunner (PyTorch) |
PyTorch單節點進行分布式訓練 |
|
HorovodRunner |
Horovod時間表 |
|
|
|
|
|
在Apache Spark集群上使用TensorFlow進行分布式訓練 |
超參數調優示例
有關Databricks中超參數調優的一般信息,請參見Hyperparameter調優.
包 |
筆記本 |
特性 |
---|---|---|
Hyperopt |
分布式hyperopt, scikit-learn, MLflow |
|
Hyperopt |
利用分布式超選擇同時搜索不同模型類型的超參數空間 |
|
Hyperopt |
Hyperopt, MLlib |
|
Hyperopt |
不同大小數據集的最佳實踐 |