MLflow加入Linux基金會成為機器學習平台的開放標準Beplay体育安卓版本
2020年6月25日 在公司博客上
2020年在今天的火花+人工智能峰會,我們宣布MLflow正在成為一個Linux基金會項目。
兩年前,我們推出了MLflow機器學習,一個開源平台,讓團隊可靠地構建和productionizeBeplay体育安卓版本毫升應用程序。從那時起,我們一直謙卑和興奮的采用數據科學社區。每月的下載量超過250萬,200的貢獻者從100年組織,同比增長4倍,MLflow已成為使用最廣泛的開源毫升平台,展示一個開放的平台來管理的好處毫升發展跨不同毫升庫工作,語言,和雲和內部環境。Beplay体育安卓版本
與社區一起,我們打算保持MLflow增長。因此,我們很高興的宣布我們已經MLflow進入Linux基金會作為一個獨立於供應商管理項目長期的非營利組織。我們興奮地看到MLflow這將帶來更多的貢獻。
在磚,我們也加倍的MLflow投資。火花+人工智能峰會上我們討論了三個正在進行的努力,進一步簡化了機器學習生命周期:autologging模型管理和部署。
Autologging:數據版本控製和再現性
MLflow已經有能力跟蹤指標,參數和工件作為實驗的一部分。您可以手動聲明來記錄每個元素,或者隻是使用autologging功能來記錄這些信息隻有一行代碼的支持庫。自從去年引入這一特性,我們看到autologging迅速采用,我們興奮地擴展此功能的功能。
機器學習實踐者麵臨最大的挑戰是如何跟蹤中間數據集(培訓和測試)中使用模型的訓練。因此,我們介紹了Apache autologging火花數據源在MLflow 1.8中,我們與MLflow數據版本控製的第一步。這意味著,如果你使用火花創建特性或培訓管道,你可以打開火花autologging並自動記錄哪些數據是查詢您的模型。
如果你使用三角洲湖——支持表版本控製和回到看到一個舊版本的數據,我們還使用了哪些記錄版本號。這意味著如果你訓練一個模型基於三角洲表和使用火花autologging MLflow使用哪個版本的數據自動記錄。此信息可以用於調試模型或複製前一個結果。
圖1:MLflow 1.8引入autologging引發數據來源包括三角洲表版本
Autologging目前支持六庫:TensorFlow Keras,膠子,LightGBM XGBoost和火花。也有正在進行的工作從Facebook添加支持PyTorch很快,從磚scikit-learn添加支持。
磚平台的用戶,我們也將autologging與磚的集群管Beplay体育安卓版本理和環境特性。這意味著如果你跟蹤實驗數據磚——從一個筆記本或工作,我們會自動記錄你使用筆記本的快照,集群配置,庫依賴關係的完整列表。
這將允許你和你的同事迅速重建相同的條件下運行時,最初的記錄。磚將克隆的快照的筆記本,創建一個新的集群與原集群規範,並安裝所需的所有庫依賴關係。這使它比以往更容易接從之前的運行和迭代,從同事或繁殖的結果。
圖2:MLflow支持再現性,允許數據團隊複製運行基於自動對數筆記本快照,集群配置,庫依賴於磚。
更強的模型管理與模型模式和MLflow模型注冊標記
一旦你登錄你的實驗和生產模式,MLflow提供了注冊您的模型的能力一個集中的存儲庫——MLflow模型注冊表——模型管理和治理。MLflow模型采用注冊率呈指數級增長,我們看到成千上萬的模型被注冊在每周磚。我們興奮地添加更多的功能,加強治理模型與模型注冊表。
最常見的一個痛點當部署模型是確保生產數據用於模型評分的模式兼容模式的數據用於訓練模型,新的模型版本的輸出是你期望的生產。因此,我們擴展MLflow模型格式包括支持模型模式,將存儲的特性和需求預測模型名稱和數據類型(輸入/輸出)。最常見的一個來源的生產中斷毫升是模型的不匹配模式部署當一個新的模型。與模型的集成模式和模型注冊表,MLflow將允許您比較模型版本及其模式,並提醒您如果有不兼容。
圖3:內置模型模式兼容性檢查,MLflow模型注冊消除不匹配模型模式——的可能性最大的一個來源的ML生產中斷。
使自定義模型管理工作流更容易也更自動化,我們引入自定義標記的一部分MLflow模型注冊表。
許多組織已經自定義驗證模型的內部流程。例如,模型可能必須要經過法律審查GDPR遵從性或通過性能測試之前將它們部署到邊緣設備。自定義標記允許您添加自己的元數據對這些模型和跟蹤他們的狀態。這種能力是通過api還提供了可以運行自動CI / CD管道測試模型,添加這些標簽,使它很容易檢查模型是否已經準備好部署。
圖4:MLflow模型中引入自定義標記注冊表數據團隊更容易驗證和監控他們的模型的狀態。
加速模型與簡化的API和模型服務部署磚
MLflow已經集成與幾個模型部署選項,包括批處理或實時服務平台Beplay体育安卓版本。因為我們已經看到越來越多的在這個領域的貢獻,我們希望為社區提供了一個簡單的API來管理模型部署。
新部署API來管理和創建部署端點將給你相同的命令部署到各種環境,消除個人的需要編寫自定義代碼規範。這已經被用於開發兩個新端點RedisAI和穀歌的雲平台,我們正在移植很多過去的集成(包括Kubernetes SageMaker和AzureML)這個API。Beplay体育安卓版本這將給你一個簡單的和統一的方法來管理部署和推動模型不同的服務平台。Beplay体育安卓版本
mlflow部署創建垃圾郵件gcp - n - t - m模型:/垃圾郵件/生產
mlflow部署預測gcp - n - t - f emails.json垃圾郵件
最後,為磚的客戶,我們興奮地宣布,我們整合beplay体育app下载地址模型服務磚作為交鑰匙解決方案。
建立環境為毫升模型作為REST端點可以麻煩和需要重要的集成工作。這個新功能磚流線從實驗到生產的過程模型。該服務在預覽,我們建議使用低吞吐量和非關鍵應用程序。
https://www.youtube.com/watch?v=RPIDdmYYY8s
圖5:MLflow解決方案服務的綜合模型簡化了從實驗到生產過程的模型。
下一個步驟
你可以看的官方聲明和演示馬泰Zaharia安和蘇在香港引發+人工智能峰會:
準備好開始MLflow嗎?你可以閱讀更多關於MLflow和如何使用它AWS或Azure。或者你可以試著筆記本(一個例子AWS][Azure]
如果您是MLflow,讀開源1.9最新MLflow MLflow快速入門開始你的第一個MLflow項目。生產用例,讀到管理MLflow磚上並開始使用MLflow模型注冊。