跳轉到主要內容
工程的博客

自動化Hyperparameter調優、縮放和跟蹤:按需網絡研討會和faq現在可用!

分享這篇文章

在磚試試這個筆記本

6月20日,我們的團隊舉辦了一個研討會——生活在磚自動化Hyperparameter調優、縮放和跟蹤——約瑟夫•布拉德利軟件工程師,高級產品經理和一帆曹磚。

自動化Hyperparameter調優、縮放和跟蹤數據磚研討會

自動機器學習(AutoML)最近獲得重大利益,因為它能夠縮短所需數據科學團隊和最大化模型的預測性能。然而,這種理想狀態可以是一個複雜和資源密集型的過程。

在這個網絡研討會,我們覆蓋:

  • 的景觀AutoML磚產品
  • 最受歡迎的hyperparameter調優技術以及實現這些技術的開源工具。
  • 這些工具的改進我們建立了磚,包括集成MLflow,專門為Apache PySpark MLlib Hyperopt。

我們使用這些筆記本電腦演示這些概念和教程:

如果你想免費訪問磚統一分析平台Beplay体育安卓版本並嚐試我們的筆記本,你可以訪問在這裏免費試用

到最後,我們舉行了一個問答和下麵的問題和答案。

問:有沒有雲平台可用於我們的實驗嗎?Beplay体育安卓版本如果是這樣的話,我們怎麼獲得呢?

可用數據磚AutoML特性在Azure磚和AWS。開始,請按照我們的指示來注冊一個免費試用

問:有多少精度好處我們應該期望從hyperparameter調優?

受益於執行準確性hyperparameter優化取決於模型,hyperparameters,和其他因素。你可以看到初始hyperparameter調優,最大的收益與收益遞減你花更多的時間調優。例如,跳進精度從運行Hyperopt max_eval = 50可能會遠遠大於跳你會看到增加max_eval從50到100。

問:Hyperopt可以應用於scikit-learn, TensorFlow嗎?

是的。分布式Hyperopt + MLflow特性適用於單節點機器學習訓練代碼和不可知論者底層毫升圖書館。Hyperopt可以在用戶函數包含單機scikit-learn TensorFlow或其他毫升代碼。注意,用於分布式機器學習培訓,請考慮使用Apache火花MLlib,自動跟蹤MLflow磚。

問:究竟什麼是開源?

我們在開源分布式Hyperopt使用Apache通過“SparkTrials火花。“自動跟蹤MLflow仍然是一個Databricks-specific特性。

問:你能詳細說明條件hyperparameter調優是什麼嗎?它是如何幫助模型搜索?

條件hyperparameter調優是指優化尋找一些hyperparameters取決於其他hyperparameters的值。例如,當調優正則化線性模型,可以搜索超過一個範圍的正則化參數“λ”L2正規化,但不同的L1正規化的“λ”範圍。這種技術有助於模型從不同的模型有不同的hyperparameters搜索。例如,對於分類問題你可以考慮選擇邏輯回歸或隨機森林。在同一個Hyperopt搜索,你可以測試兩種算法,搜索在不同hyperparameters與每個相關算法,例如正規化邏輯回歸和隨機森林的樹的數量。

問:MLflow自動選擇最好的模型,使其父母和其他運行運行的孩子嗎?

我們集成MLflow MLlib和Hyperopt自動選擇最佳的運行與父子層次結構模型和結構。非常清楚,這個集成有兩部分處理不同方麵:(一)MLflow使用簡單的日誌記錄和跟蹤,而(b) MLlib和Hyperopt包含調優邏輯選擇最好的模型。因此,MLlib和Hyperopt模型進行比較,選擇最佳模型,並決定如何跟蹤模型作為MLflow運行。

問:我可以設置一個預定的學習速率,減緩hyperparameter /更改嗎?

是的,但放緩的邏輯需要定製毫升代碼。一些深度學習庫支持減少學習利率:例如,https://www.tensorflow.org/api_docs/python/tf/compat/v1/train/exponential_decay

問:我們可以看到模型的特性,都是用於MLflow跟蹤UI ?

的功能將不會被記錄在默認情況下,但是你可以添加自定義MLflow日誌代碼日誌功能名稱。為此,我們建議在調優的主要運行日誌功能名稱。如果功能是記錄一長串的名字,最好將日誌作為MLflow標簽或工件自那些支持/長值比MLflow params磚。

問:MLflow能夠處理自動化特性工程?

您可以很容易地安裝第三方庫Featuretools等自動功能工程、MLflow和日誌生成的特性

問:MLflow幫助在執行轉移學習如何?

有許多類型的轉移學習,所以很難給出一個答案。最相關的一種轉移學習這次研討會的主題是使用一個模型的結果優化hyperparameters warmstart調優模型。MLflow與這通過提供一個知識存儲庫可以幫助理解過去hyperparameters和性能,幫助用戶選擇合理hyperparameters和範圍搜索在未來。這個應用程序的結果必須手動完成目前新調優運行。

問:這些特性在Community Edition嗎?

目前沒有。

問:MLflow自動跟蹤可用在Scala中?

目前沒有。我們將把它添加,如果有足夠的客戶需求。

額外的資源:

文檔:

博客:

視頻:

與MLflow開始,按照說明mlflow.org或查看發布代碼Github。我們最近還創建了一個鬆弛的通道為MLflow以及實時問題,你可以遵循@MLflow在Twitter上。我們很高興聽到你的反饋的概念和代碼!

免費試著磚
看到所有工程的博客的帖子
Baidu
map