AutoML磚:增加數據科學與數據準備操作化
2019年8月20日 在公司博客上
成千上萬的數據科學就業崗位空缺的今天,全球對人才的需求大大超過了供給。每一天,企業支付的價格數據科學家短缺錯失良機而緩慢的創新。為組織實現全部潛能的機器學習,數據團隊必須建立每年數以百計的預測模型。對於大多數企業來說,隻有一小部分由於人手不足的數量實際上是實現數據科學團隊。
磚可以幫助數據科學團隊更有效率通過自動化數據科學工作流程的各個步驟,包括功能工程、hyperparameter調優模型搜索和部署——一個完全控製和透明的增強毫升經驗。這遠遠超出自動搜索模型,這是通常被稱為AutoML。
今天的博客總結新的和現有功能上可用統一的分析平台啟用所有級別的專業知識,具體來說:Beplay体育安卓版本
- AutoML工具包:端到端自動化機器學習管道,包括工程特點、模式搜索,和部署可通過磚公民實驗室定製解決方案和專家數據科學家。AutoML MLflow工具包執行自動跟蹤。
- HyperOpt、MLlib MLflow集成磚運行時的ML:數據科學家希望自動化hyperparameter調優或模型搜索現在可以受益於HyperOpt之間更深層次的集成,MLlib,和MLflow毫升磚運行時的一部分。這種集成使簡化分布式條件hyperparameter調優,自動跟蹤和增強可視化。
- 自定義AutoML解決方案:磚的統一分析平台提供數據工程師和數據科學家能夠運行所有分析過程在一個地方,從ETLBeplay体育安卓版本建模和推理。深度集成和優化與最流行的開源庫提供專家數據科學家和ML工程師所需的靈活性和控製運行端到端毫升管道,在磚和自動選擇步驟與生產工作。
- 集成Azure的機器學習:建立在開源MLflow磚之間的協作和微軟宣布今年4月,該集成允許客戶訪問Azure機器學習提供的自動化的機器學習功能。beplay体育app下载地址看到這個文章要學習更多的知識。
從功能工廠部署AutoML工具包
磚實驗室是項目的集合由工程師在現場解決問題我們看到一次又一次與我們的客戶。beplay体育app下载地址與AutoML工具包,目標是自動化建設毫升管道從功能轉換到hyperparameter調優,模式搜索,最後推斷,同時仍然提供細粒度控製。
這個磚實驗室的項目是一個實驗性的端到端自動化:監督學習解決方案
- 功能清理
- 功能向量化
- 模型選擇和培訓
- 超參數優化和選擇
- 批處理的預測
- 日誌記錄模型的結果和培訓(使用運行MLflow)
這個解決方案可以實現任何代碼或細調的專家,因為他們認為合適的。
簡化分布式Hyperparameter調優和模型搜索Hyperopt和MLflow磚運行時毫升
數據科學家觀察加速他們的工作流程也可以受益於Hyperopt之間更深層次的集成,MLlib, MLflow磚運行時為毫升為優化和分布式hyperparameter和模式搜索。
- 自動模式搜索:優化和分布式條件hyperparameter搜索MLflow增強Hyperopt和自動跟蹤。
- 自動化Hyperparameter優化:優化和分布式Hyperparameter搜索MLflow增強Hyperopt和自動跟蹤。深度整合的PySpark MLlib的交叉驗證允許自動跟蹤在MLflow MLlib實驗。
看到例如如何追蹤的結果hyperparameter調優在磚和增強Hyperopt MLflow規模集成:
https://www.youtube.com/watch?v=b2KxgBjpe8M
這裏有一些額外的資源了解更多:
- 與MLflow Hyperparameter調優,Apache火花MLlib和Hyperopt博客
- 自動化Hyperparameter調優、縮放和跟蹤:按需網絡研討會和faq現在可用!
- Hyperparameter優化文檔
- 分布式Hyperopt +自動MLflow跟蹤筆記本
- MLlib +自動MLflow跟蹤筆記本
完全自定義AutoML解決方案的靈活性和性能
更高級的用戶也有能力在磚上運行所有AutoML步驟,從ETL模式訓練和推理,利用統一的分析平台的可擴展性和內置的優化與流行的開源庫。Beplay体育安卓版本
毫升的磚運行時還提供了一個可靠和安全的分布最流行的開放源碼毫升框架(例如TensorFlow, Keras PyTorch, XGBoost, scikit-learn,…)的優化和集成與Horovod深度學習以及分布MLflow內置的實驗和可視化跟蹤hyperparameter調優。
下麵是額外的資源來深入了解:
看自動化預測建模在Zynga熊貓udf例如基於自定義解決方案的運行在磚上。
下一個步驟
訪問//m.eheci.com/product/automl了解更多,開始磚的免費試用。