構建ML模型是困難的。將它們投入生產更加困難。隨著時間的推移,保持數據質量和模型的準確性隻是其中的幾個挑戰。磚獨特的流線毫升發展,從數據準備模型訓練和部署規模。
之前
後
了解Databricks如何幫助協同準備數據、構建beplay娱乐ios、部署和管理最先進的ML模型,
從實驗到生產,規模空前。
完成工作所需的一切都可以在工作區中單擊即可:數據集、ML環境、筆記本、文件、實驗、模型,所有這些都可以安全地放在一個地方。
beplay娱乐ios具有多語言支持(Python、R、Scala、SQL)的協作筆記本使團隊協作更容易,同時協同創作、Git集成、版本控製、基於角色的訪問控製等等,幫助您保持控製。或者簡單地使用熟悉的工具,如Jupyter Lab, PyCharm, IntelliJ, RStudio與Databricks,受益於無限的數據存儲和計算。
機器學習實踐者根據各種各樣的數據形式和格式訓練模型:小型或大型數據集、數據幀、文本、圖像、批處理或流。所有這些都需要特定的管道和轉換
Databricks允許您從幾乎任何來源攝入原始數據,合並批處理和流數據,調度轉換,版本表,並執行質量檢查,以確保數據是原始的,並為組織的其他部分的分析做好準備。因此,現在您可以根據自己的需要,無縫且可靠地處理任何數據、CSV文件或大量數據湖攝取。
毫升框架發展正在以瘋狂的速度使它具有挑戰性維持毫升環境。Databricks ML運行時提供了現成的和優化的ML環境,包括最流行的ML框架(scikit-learn, TensorFlow等…)和Conda支持。
內置的AutoML像hyperparameter調優結果幫助更快,簡化縮放幫助你毫不費力地從小型到大型數據所以你不必受限於計算有多少可用了。例如,火車速度的深度學習模型在整個集群分布計算HorovodRunner和擠壓集群中的每個GPU的性能通過運行TensorFlow CUDA-optimized版本。
ML算法有幾十個可配置的參數,無論單獨工作還是團隊工作,都很難跟蹤每個實驗中使用了哪些參數、代碼和數據來生成模型。
MLflow從筆記本中自動跟蹤您的實驗以及數據、代碼、參數和每次訓練運行的結果等工件。因此,您可以快速查看以前的運行,比較結果,並根據需要恢複到代碼的以前版本。一旦確定了用於生產的模型的最佳版本,就可以在中央存儲庫中注冊它,以便提交部署並簡化轉換。
一旦注冊了訓練好的模型,您就可以使用MLflow模型注冊中心在它們的生命周期內協作地管理beplay娱乐ios它們。
模型可以通過不同的階段進行版本控製和移動,比如實驗、登台、生產和存檔。涉眾可以對變更階段進行評論和提交請求。所有生命周期管理都集成了審批和治理工作流以及基於角色的訪問控製。
快速部署生產模型,在Apache Spark™上進行批處理推理,或者使用與Docker容器、Azure ML和Amazon SageMaker的內置集成作為REST api。
實施生產模型使用工作調度器和auto-managed集群規模根據需要根據業務的需要。
迅速推動您的模型的最新版本生產和監控模型與三角洲湖和MLflow漂移。
準備好開始了嗎?