跳轉到主要內容

可擴展的機器學習與Apache引發™

描述

本課程教你如何規模毫升管道與火花,包括分布式訓練,hyperparameter調優和推理。您將構建和優化毫升模型SparkML而利用MLflow跟蹤、版本和管理這些模型。本課程涵蓋了最新的ML特性在Apache火花,如熊貓udf,熊貓功能,火花和熊貓API,以及最新的ML產品,存儲和AutoML等特性。


本課程將幫助你把磚認證考試機器學習聯係起來

持續時間

2天或4天的一半

目標

  • 執行可伸縮的EDA和火花
  • 與SparkML建立和優化的機器學習模型
  • 跟蹤、版本與MLflow和部署模型
  • 執行HyperOpt分布式hyperparameter調優
  • 使用磚機器學習的工作區中創建一個存儲和AutoML特性實驗
  • 利用熊貓API引發規模熊貓代碼

先決條件

  • 中間Python的經驗
  • 經驗構建機器學習模型
  • 熟悉PySpark DataFrame API

大綱

第一天

  • 火花/毫升概述
  • 探索性數據分析(EDA)和工程特性與火花
  • 線性回歸與SparkML:變壓器、估計、管道和評價者
  • 注冊表MLflow跟蹤和模型

第二天

  • 基於樹模型:Hyperparameter調優和並行性
  • 對分布式hyperparameter HyperOpt調優
  • 磚AutoML和特性
  • 集成第三方包(分布式XGBoost)
  • 分布式推理scikit-learn模型與熊貓udf
  • 分布式訓練熊貓API函數
Baidu
map