管理培訓與MLflow運行代碼

本文描述了MLflow運行管理機器學習培訓。它還包括指導如何管理和比較實驗

一個MLflow運行對應於一個單一的模型代碼的執行。每次運行記錄以下信息:

  • :名字的筆記本推出運行或項目名稱和運行的入口點。

    • 版本:筆記本修訂如果磚工作區中從一個筆記本,如果逃避或Git commit散列磚回購或從一個MLflow項目

    • 開始和結束時間:開始和結束時間的運行。

    • 參數:模型參數保存為鍵值對。鍵和值都是字符串。

    • 指標:保存為鍵值對模型評價指標。值是數字。可以更新每個指標在整個運行過程中(例如,跟蹤你的模型的損失函數收斂),和MLflow記錄允許您可視化指標的曆史。

    • 標簽:運行元數據保存為鍵值對。您可以更新標簽期間和之後運行完成。鍵和值都是字符串。

    • 工件:在任何輸出文件格式。例如,您可以記錄圖像,模型(例如,醃scikit-learn模型),和數據文件(例如,拚花文件)作為一個工件。

所有MLflow運行都記錄到活性實驗。如果沒有顯式地設置一個實驗活性試驗,運行記錄到筆記本的實驗。

查看運行

您可以訪問運行從其母實驗頁麵或直接從筆記本創建運行。

實驗頁麵運行表中,單擊運行的開始時間。

的筆記本,點擊外部鏈接旁邊的日期和時間在實驗運行欄中運行。

運行屏幕顯示使用的參數運行,運行產生的指標,任何標簽或筆記。來顯示筆記,參數,指標,或標簽運行,點擊的箭頭左邊的標簽。

你也從運行在這個屏幕訪問工件保存。

查看運行

代碼片段預測

如果你從運行日誌模型,該模型的構件部分出現在這個頁麵。顯示代碼片段說明如何加載和使用該模型進行預測火花和熊貓DataFrames單擊模型名稱。

預測代碼片段

查看筆記本或Git項目用於運行

查看版本的筆記本創建了一個運行:

  • 在實驗頁麵,點擊鏈接列。

  • 在運行頁麵,單擊旁邊的鏈接

  • 的筆記本,在實驗運行欄,單擊筆記本圖標筆記本版本的圖標盒子裏的實驗運行。

筆記本與運行相關的版本出現在主窗口中突出顯示欄顯示的日期和時間。

如果從遠程啟動運行Git項目,單擊鏈接Git提交現場打開項目的特定版本中使用的運行。內的鏈接的主要分支領域打開使用的Git項目運行。

添加一個標簽

標簽是鍵值,您可以創建和使用後尋找運行

  1. 運行頁麵,點擊標簽圖標如果尚未打開。標簽表出現。

    標簽表
  2. 點擊的名字價值字段和標簽的鍵和值類型。

  3. 點擊添加

    添加標簽

編輯或刪除一個標簽

編輯或刪除現有標簽,使用的圖標行動列。

標簽的行為

複製運行的軟件環境

你可以複製的軟件環境,點擊運行複製運行。以下對話框:

複製運行對話框

使用默認設置,當你點擊確認:

  • 筆記本是克隆位置所示對話框。

  • 如果原始集群仍然存在,克隆的筆記本連接到原始啟動集群和集群。

  • 如果原始集群已經不複存在,一個新的集群使用相同的配置,包括任何安裝庫,創建並啟動。筆記本連接到新的集群。

您可以選擇一個不同的位置對克隆的筆記本和檢查集群配置和安裝庫:

  • 選擇一個不同的文件夾保存克隆筆記本,點擊編輯文件夾

  • 看到集群規範,點擊視圖規範。克隆隻有筆記本而不是集群,請取消選中此選項。

  • 看到庫安裝在原來的集群中,點擊查看庫。如果你不關心的原始集群安裝相同的庫,請取消選中此選項。

管理運行

重命名運行

重命名一個運行,點擊三個按鈕圖標右上角的頁麵並選擇運行重命名

過濾器運行

您可以搜索基於運行參數或度量值。你也可以通過標簽搜索運行。

  • 搜索匹配表達式包含運行參數和度量值,在搜索框中輸入查詢,單擊搜索。有一些查詢語法的例子:

    metrics.r2>0.3

    params.elasticNetParam=0.5

    params.elasticNetParam=0.5metrics.avg_areaUnderROC>0.3

  • 通過標簽搜索運行,輸入標簽的格式:標簽。<鍵> = <價值>”。必須包含在引號字符串值如圖所示。

    tags.estimator_name = " RandomForestRegressor "

    tags.color = "藍色"tags.size = 5

    兩個鍵和值可以包含空格。如果鍵包含空格,必須附上在引號如圖所示。

    標簽。“我的定製標記”=“我的價值”

你也可以過濾運行基於他們的狀態(主動或刪除)和基於模型版本是否與運行。要做到這一點,讓你的選擇的狀態創建的時間下拉菜單。

過濾器運行

下載運行

  1. 選擇一個或多個運行。

  2. 點擊下載CSV。下載一個CSV文件,其中包含以下字段:

    運行ID、名稱、源類型、源名稱、用戶狀態、< parameter1 >、< parameter2 >,…, < metric1 >、< metric2 >,……

刪除運行

  1. 在實驗中,選擇一個或多個運行中通過點擊左邊的複選框。

  2. 點擊刪除

  3. 如果是父母跑,決定你是否還想刪除後裔。默認情況下這個選項被選中。

  4. 點擊刪除確認或取消取消。刪除運行保存30天。顯示已刪除,選擇刪除在字段。

比較這兩種

你可以比較從一個實驗或從多個實驗。的比較運行頁麵呈現的信息選擇運行在圖形和表格格式。您還可以創建可視化運行結果和表的運行信息、運行參數和指標。

創建一個可視化:

  1. 選擇情節類型(平行坐標圖,散點圖,或等高線圖)。

    1. 對於一個平行坐標圖繪製,選擇參數和指標。從這裏,您可以確定所選的參數和指標之間的關係,這有助於您更好地為您的模型定義hyperparameter優化空間。

      比較運行頁麵可視化
    2. 對於一個散點圖等高線圖,選擇參數或指標顯示在每個軸上。

參數指標表顯示運行參數和指標選擇的運行。這些表的列是確定的運行細節表上方。為簡單起見,您可以隱藏參數和指標是相同的在所有選擇切換運行隻顯示diff按鈕

比較運行頁表

從一個單一的實驗進行比較

  1. 實驗頁麵,選擇兩個或兩個以上的運行通過點擊複選框左邊的來看,或選擇所有運行通過檢查盒子頂部的列。

  2. 點擊比較。的比較< N >屏幕出現。

比較運行來自多個實驗

  1. 實驗頁麵,選擇你想要的實驗比較,點擊框左側的實驗名稱。

  2. 點擊比較(n)(n你選擇是實驗的數量)。屏幕上顯示所有的從您選擇的實驗。

  3. 選擇兩個或兩個以上的運行通過點擊複選框左邊的來看,或選擇所有運行通過檢查盒子頂部的列。

  4. 點擊比較。的比較< N >屏幕出現。

在工作區之間複製運行

導入或導出MLflow運行或從你的磚的工作空間,您可以使用社區驅動的開源項目MLflow進出口