描述
本課程教授如何用Spark劃分ML管道,包括分布式訓練,封閉式調諧和推理。您將使用SparkML構建和調整ML模型,同時利用MLFLIF進行跟蹤,版本和管理這些模型。本課程涵蓋了Apache Spark中的最新ML功能,例如Pandas UDFS,Pandas功能以及火花的Pandas API,以及最新的ML產品產品,例如Feature Store和Automl。
期間
2個全天或4半
目標
- 用火花執行可擴展的eda
- 使用SparkML構建和調諧機器學習模型
- 跟蹤,版本和部署MLFLIF的模型
- 使用hyperopt執行分布式的hyperparameter調整
- 使用DataBroks Machine Maching工作區創建功能存儲和自動化實驗
- 在火花上利用Pandas API來擴展您的熊貓代碼
先決條件
- 用Python中間體驗
- 體驗建築機器學習模式
- 熟悉pyspark dataframe api
後勤
大綱
第1天
- Spark / ML概述
- 探索性數據分析(EDA)和Spark的功能工程
- 用SparkML線性回歸:變形金剛,估算器,管道和評估員
- MLFLOW跟蹤和模型注冊表
第2天
- 基於樹的模型:HyperParameter調整和並行性
- 分布式超參數調整的HyperOpt
- Databricks Automl和Feature Store
- 整合第三方包(分布式XGBoost)
- 用熊貓UDFS分布式推理Scikit-Seather模型
- 用熊貓功能API分發培訓
- Pandas API在Spark for Data Manipulation
即將到來的公共課程
如果您有任何疑問,請參閱我們的經常問的問題頁。