使用Unity Catalog數據進行Python ML模型訓練

Unity Catalog允許您對表應用細粒度的安全性,並從任何語言安全地訪問它們,同時與Databricks中的其他機器學習組件無縫交互。本文展示了如何使用Python使用Unity Catalog中的數據來訓練機器學習模型。

需求

  • 您的工作空間必須為Unity Catalog啟用。

  • 您必須能夠創建集群,或者能夠訪問以單用戶訪問模式運行的集群。

創建Databricks Machine Learning集群

按照以下步驟創建一個單用戶Databricks Runtime ML集群,該集群可以訪問Unity Catalog中的數據。

  1. 點擊計算圖標計算

  2. 點擊創建計算

  3. 訪問模式中,選擇單用戶

    Databricks Runtime ML包含需要使用單個用戶集群的庫。單個用戶集群隻能由單個用戶獨占使用(默認情況下,單個用戶是集群的所有者)。其他用戶無法掛載到集群。

    有關每種訪問模式中可用的特性的詳細信息,請參見什麼是集群訪問模式?

  4. Databricks運行時版本下拉菜單,選擇毫升並選擇11.3 LTS ml或更高版本。

  5. 點擊創建集群

創建目錄

按照以下步驟創建一個新的目錄,您的機器學習團隊可以在其中存儲他們的數據資產。

  1. 在分配了metastore的工作空間中,以metastore管理員身份登錄,或以用戶身份登錄創建目錄特權。

  2. 創建一個筆記本或打開Databricks SQL編輯器。

  3. 2 .執行以下命令創建毫升目錄:

    創建目錄毫升

    在創建編目時,一個名為默認的在其中自動創建。

  4. 授予訪問毫升目錄和ml.default模式,以及創建表和視圖的能力ml_team組。要包括所有帳戶級別的用戶,可以使用組賬戶用戶

    格蘭特使用目錄目錄毫升毫升團隊格蘭特使用模式創建表格模式毫升默認的ml_team

現在,任何用戶ml_team組可以運行以下示例筆記本。

導入示例筆記本

首先,導入下麵的筆記本。

機器學習與統一目錄

在新標簽頁打開筆記本

導入筆記本:

  1. 在筆記本旁邊,單擊複製導入鏈接

  2. 在工作空間中,單擊工作空間的圖標工作空間

  3. 單擊文件夾後的下脫字符號,然後按進口

  4. 點擊URL,然後粘貼您複製的鏈接。

  5. 導入的筆記本將出現在所選文件夾中。雙擊記事本名稱打開。

  6. 在筆記本的頂部,選擇Databricks Machine Learning集群以將筆記本附加到該集群。

筆記本分為幾個高級部分:

  1. 設置。

  2. 從CSV文件讀取數據並將其寫入Unity Catalog。

  3. 將數據加載到Pandas數據幀中並清理。

  4. 訓練一個基本分類模型。

  5. 調優超參數並優化模型。

  6. 將結果寫入新表並與其他用戶共享。

要運行單元格,請單擊運行圖標運行.要運行整個筆記本,請單擊運行所有