開始使用Databricks作為機器學習工程師

此處列出的Quickstarts和教程旨在使您在Databricks上的機器學習迅速開始。每個都包含一個筆記本,您可以在自己的數據助理工作區中導入並運行。他們說明了如何在整個機器學習生命周期中使用數據括號,包括數據加載和準備;模型培訓,調整和推理;以及模型部署和管理。他們展示了有用的工具,例如hyperopt對於自動超參數調整,MLFLOW跟蹤和自體進行模型開發,以及模型注冊表用於模型管理。

筆記

要運行這些教程中包含的筆記本,請單擊複製導入鏈接在教程頁麵上的筆記本上方。在你的Databricks Workspace瀏覽器, 選擇進口從任何文件夾菜單中粘貼URL。要運行筆記本,您必須有一個群集才能運行。有關創建簇和運行筆記本的更多信息,請參閱從數據科學家開始使用數據映

筆記

與Google Cloud上的Databricks的托管MLFLOW集成需要用於機器學習的Databricks運行時9.1 LTS或更高。

對於新手數據映的用戶

作為Databricks機器學習新手的最佳起點的最佳場所是:

  1. 跟著從數據科學家開始使用數據映快速開始。

  2. 運行Databricks機器學習環境中包含的產品內快速入門筆記本。

    這本筆記本說明了使用數據鏈球機進行機器學習的許多好處,包括使用MLFLOW和並行化的超參數調整運行跟蹤模型開發。筆記本電腦將為您介紹如何加載數據,訓練和調整模型,比較和分析模型性能,並使用模型進行推理。

運行產品內快速入門筆記本:

  1. 登錄到您的Databricks工作區,然後轉到基於Databricks機器學習角色的環境。

    要更改角色,請單擊Databricks徽標下方的圖標Databricks徽標,然後選擇機器學習

    改變角色
  2. 在Databricks機器學習上首頁, 點擊開始指南在右上方。

    機器學習教程筆記本

Scikit-Learn教程

筆記本

要求

特征

機器學習Quickstart

Databricks運行時ML

分類模型,MLFLOW,使用HyperOPT和MLFLOW的自動超參數調諧

使用模型注冊表機器學習

Databricks運行時ML

分類模型,MLFLOW,使用HyperOPT和MLFlow,模型注冊表的自動化超參數調整

端到端示例

Databricks運行時ML

分類模型,MLFLOW,使用HyperOPT和MLFLOW,XGBOOST,模型注冊表的自動超參數調整

apache spark mllib教程

筆記本

要求

特征

用mllib的機器學習

Databricks運行時ML

邏輯回歸模型,火花管道,使用MLLIB API自動化的超參數調整

深度學習教程

筆記本

要求

特征

用Tensorflow Keras進行深度學習

Databricks運行時ML

神經網絡模型,內聯張板,使用HyperOPT和MLFlow,自動化,模型Registry的自動化超參數調諧