跟蹤機器學習培訓

MLflow跟蹤組件允許您日誌源屬性,參數,規格,標簽,和工件相關培訓機器學習模型。與MLflow開始,嚐試之一MLflow快速入門教程

MLflow跟蹤實驗和運行

MLflow跟蹤是基於兩個概念,實驗運行:

  • 一個MLflow實驗是組織和訪問控製的主要單位MLflow運行;所有MLflow運行屬於一個實驗。實驗讓你想象,尋找和比較,以及下載運行工件和元數據在其他工具進行分析。

  • 一個MLflow運行對應於一個單一的模型代碼的執行。

MLflow跟蹤API日誌參數、指標、標簽和工件從一個模型運行。跟蹤API與MLflow進行通信跟蹤服務器。當你使用磚,Databricks-hosted跟蹤服務器日誌數據。托管MLflow跟蹤服務器Python, Java,和R api。

學習如何控製實驗中,訪問MLflow實驗權限改變權限的實驗

請注意

MLflow磚上安裝運行時毫升集群。使用MLflow磚集群運行時,您必須安裝mlflow圖書館。說明安裝庫到集群中,看到的安裝一個圖書館集群上。MLflow的特定包安裝:

  • 對於Python,選擇庫源PyPI並輸入mlflow字段。

  • 對於R,選擇庫源凹口,進入mlflow字段。

  • 在Scala中,安裝這兩個包:

    • 選擇庫源Maven和輸入org.mlflow: mlflow-client: 1.11.0坐標字段。

    • 選擇庫源PyPI並輸入mlflow字段。

MLflow運行在哪裏登錄

MLflow運行都記錄到活性實驗中,可以設置使用下列方法:

如果沒有積極的實驗設置,登錄到運行筆記本的實驗

記錄實驗結果遠程托管的MLflow跟蹤服務器在另一個工作區你運行實驗,設置跟蹤URI引用遠程工作空間mlflow.set_tracking_uri (),將路徑設置為遠程實驗工作區使用mlflow.set_experiment ()

mlflowset_tracking_uri(<uri- - - - - -- - - - - -遠程- - - - - -工作空間>)mlflowset_experiment(“遠程實驗工作區之路”)

日誌的例子筆記本

這個筆記本顯示如何日誌運行一個筆記本實驗和工作空間實驗。隻有MLflow運行啟動筆記本可以記錄到筆記本中實驗。MLflow運行發射的任何筆記本或api可以記錄到工作空間實驗。查看運行記錄的信息,看到查看筆記本的實驗視圖空間實驗

運行日誌MLflow筆記本

在新標簽頁打開筆記本

您可以使用Python MLflow、Java或Scala和R api開始運行並記錄運行數據。詳情,請參閱MLflow快速入門的筆記本

從外部訪問MLflow跟蹤服務器數據磚

你也可以寫和讀從跟蹤服務器以外的磚,例如使用MLflow CLI。

分析MLflow通過編程的方式運行

您可以訪問MLflow運行數據兩個DataFrame api以編程方式使用以下:

這個例子演示了如何使用MLflow Python客戶機構建一個儀表板,可視化評價指標的變化隨著時間的推移,追蹤運行由一個特定用戶的數量,和措施運行在所有用戶的總數:

為什麼模型訓練指標和輸出可能會有所不同嗎

許多ML算法的一個隨機元素,如抽樣或隨機初始條件算法本身。當你訓練一個模型使用這些算法之一,每次運行的結果可能不是相同的,即使你開始運行相同的條件。許多圖書館提供播種機製來解決這些隨機的初始條件的元素。然而,可能會有其他的變化不是由種子來源。一些算法敏感數據的順序,和分布式ML算法也可能受到如何分區數據的影響。一般這種變化不重要和不重要的開發過程模型。

控製變化造成的差異分類和分區,使用PySpark功能重新分區sortWithinPartitions

MLflow跟蹤例子

以下筆記本演示如何訓練幾種類型的模型的訓練數據和跟蹤MLflow以及如何跟蹤數據存儲在三角洲湖。