可擴展的機器學習與Apache引發™
描述
本課程教你如何規模毫升管道與火花,包括分布式訓練,hyperparameter調優和推理。您將構建和優化毫升模型SparkML而利用MLflow跟蹤、版本和管理這些模型。本課程涵蓋了最新的ML特性在Apache火花,如熊貓udf,熊貓功能,火花和熊貓API,以及最新的ML產品,存儲和AutoML等特性。
本課程將幫助你把磚認證考試機器學習聯係起來。
持續時間
2天或4天的一半
目標
- 執行可伸縮的EDA和火花
- 與SparkML建立和優化的機器學習模型
- 跟蹤、版本與MLflow和部署模型
- 執行HyperOpt分布式hyperparameter調優
- 使用磚機器學習的工作區中創建一個存儲和AutoML特性實驗
- 利用熊貓API引發規模熊貓代碼
先決條件
- 中間Python的經驗
- 經驗構建機器學習模型
- 熟悉PySpark DataFrame API
大綱
第一天
- 火花/毫升概述
- 探索性數據分析(EDA)和工程特性與火花
- 線性回歸與SparkML:變壓器、估計、管道和評價者
- 注冊表MLflow跟蹤和模型
第二天
- 基於樹模型:Hyperparameter調優和並行性
- 對分布式hyperparameter HyperOpt調優
- 磚AutoML和特性
- 集成第三方包(分布式XGBoost)
- 分布式推理scikit-learn模型與熊貓udf
- 分布式訓練熊貓API函數