磚支持CI / CD機如何學習?
CI / CD(持續集成和持續交付)指的是一個自動化的過程開發、部署、監控和維護應用程序。通過自動化的構建、測試和部署代碼,開發團隊可以提供更頻繁地發布和可靠地比手工流程仍然流行在許多工程和數據科學團隊。CI / CD MLOps彙集了機器學習技術,DataOps ModelOps, DevOps。
本文描述了磚如何支持CI / CD機器學習解決方案。在機器學習應用程序中,CI / CD對代碼資產不僅是重要的,但也適用於數據管道,包括輸入數據和結果生成的模型。
機器學習的元素需要CI / CD
毫升發展的挑戰之一是不同團隊的過程的不同部分。團隊可能依賴於不同的工具和有不同的發布時間表。磚提供單一的、統一的數據和ML平台集成的工具來提高團隊的效率和確保數據的一致性和可重複性和ML管道。Beplay体育安卓版本
一般的機器學習任務,下麵應該自動跟蹤CI / CD工作流:
訓練數據,包括數據質量、模式變化和分布變化。
輸入數據管道。
代碼訓練、驗證和服務模型。
模型預測和性能。
磚融入你的CI / CD的過程
MLOps、DataOps ModelOps, DevOps指開發過程的集成與“操作”——使流程和基礎設施可預測的和可靠的。這組文章描述如何操作(ops)的原則融入你的ML工作流磚Lakehouse平台。Beplay体育安卓版本
磚包含所需的所有組件毫升生命周期包括工具來構建“配置代碼”,以確保再現性和“基礎設施代碼”自動化雲服務的供應。它還包含日誌和警報服務來幫助你檢測和解決出現的問題。
DataOps:可靠、安全的數據
良好的ML模型依賴於可靠的數據管道和基礎設施。磚Lakehouse,整個數據管道從攝入數據服務模型的輸出在一個平台上,並使用相同的工具集,它促進了生產力、再現性、共享、和故障排除。Beplay体育安卓版本
ModelOps:模型開發和生命周期
開發一個模型需要一係列的實驗方法來追蹤和比較實驗的條件和結果。磚Lakehouse包括MLflow模型發展跟蹤和MLflow模型注冊管理模型生命周期包括分段、服務和存儲模型工件。
發布到生產係統模型之後,很多事情可以改變那些可能會影響其性能。除了監控模型的預測性能之外,你還應該監視輸入數據質量的變化或可能需要重新訓練模型的統計特征。
在磚ModelOps任務和工具
下表列出了一些常見的ModelOps任務和工具提供的數據磚:
ModelOps任務 |
工具在磚 |
---|---|
跟蹤模型開發 |
|
生命周期管理模型 |
模型注冊血統、版本控製和分期。MLflow人則和電子郵件通知警報。 |
模型代碼版本控製和共享 |
|
沒有代碼模型開發 |
DevOps:生產和自動化
磚Lakehouse平台支持毫升模型在生產中使用以Beplay体育安卓版本下:
端到端數據和模型譜係:從模型在生產原始數據來源,在同一平台。Beplay体育安卓版本
生產級模型為:自動上下尺度根據您的業務需求。
多任務工作流:自動化工作和創建預定機器學習工作流。
Git集成:代碼版本管理和共享,也有助於團隊遵循軟件工程最佳實踐。
磚起程拓殖的提供者:自動化部署在雲基礎設施毫升推理工作,服務端點和featurization工作。
模型服務
將模式部署到生產,MLflow顯著簡化了過程,提供單擊部署作為大量數據的批處理作業或其他端點的自動定量集群。磚的集成特性存儲MLflow也確保一致性特性的培訓和服務;此外,MLflow模型可以自動查找存儲特性的特性,即使是低延遲的在線服務。
磚Lakehouse平台支持許多模型部署選項:Beplay体育安卓版本
代碼和容器。
批處理服務。
低延遲的在線服務。
設備內置或邊緣。
多重雲,例如,培訓模型在一個雲和部署它。
有關更多信息,請參見磚模型服務。
Git集成
磚Lakehouse平台包括一個儲存庫層次的GitBeplay体育安卓版本集成幫助團隊遵循軟件工程最佳實踐通過UI執行Git操作。管理員和DevOps工程師可以使用api來設置自動化與他們最喜歡的CI / CD的工具。磚支持任何類型的Git部署包括私人網絡。
更多信息的最佳實踐代碼開發使用磚回購的,看到的CI / CD與Git工作流集成和磚回購和使用CI / CD。這些技術,加上磚REST API,讓你使用GitHub行動構建自動化部署流程,Azure DevOps管道,或詹金斯工作。
統一目錄管理和安全
磚Lakehouse平台包括Beplay体育安卓版本統一目錄,可以讓管理員建立細粒度的訪問控製,安全策略,治理所有數據在磚和AI資產。