可擴展的機器學習與Apache引發™

描述

本課程教你如何規模毫升管道與火花,包括分布式訓練,hyperparameter調優和推理。您將構建和優化毫升模型SparkML而利用MLflow跟蹤、版本和管理這些模型。本課程涵蓋了最新的ML特性在Apache火花,如熊貓udf,熊貓功能,火花和熊貓API,以及最新的ML產品,存儲和AutoML等特性。

本課程將幫助你把磚認證考試機器學習聯係起來。

持續時間

2天或4天的一半

目標

執行可伸縮的EDA和火花
與SparkML建立和優化的機器學習模型
跟蹤、版本與MLflow和部署模型
執行HyperOpt分布式hyperparameter調優
使用磚機器學習的工作區中創建一個存儲和AutoML特性實驗
利用熊貓API引發規模熊貓代碼

先決條件

中間Python的經驗
經驗構建機器學習模型
熟悉PySpark DataFrame API

大綱

第一天

火花/毫升概述
探索性數據分析(EDA)和工程特性與火花
線性回歸與SparkML:變壓器、估計、管道和評價者
注冊表MLflow跟蹤和模型

第二天

基於樹模型:Hyperparameter調優和並行性
對分布式hyperparameter HyperOpt調優
磚AutoML和特性
集成第三方包(分布式XGBoost)
分布式推理scikit-learn模型與熊貓udf
分布式訓練熊貓API函數

現在訪問合作夥伴學院