使用Unity Catalog數據進行Python ML模型訓練
Unity Catalog允許您對表應用細粒度的安全性,並從任何語言安全地訪問它們,同時與Databricks中的其他機器學習組件無縫交互。本文展示了如何使用Python使用Unity Catalog中的數據來訓練機器學習模型。
創建Databricks Machine Learning集群
按照以下步驟創建一個單用戶Databricks Runtime ML集群,該集群可以訪問Unity Catalog中的數據。
點擊計算.
點擊創建計算.
下訪問模式中,選擇單用戶.
Databricks Runtime ML包含需要使用單個用戶集群的庫。單個用戶集群隻能由單個用戶獨占使用(默認情況下,單個用戶是集群的所有者)。其他用戶無法掛載到集群。
有關每種訪問模式中可用的特性的詳細信息,請參見什麼是集群訪問模式?.
在Databricks運行時版本下拉菜單,選擇毫升並選擇11.3 LTS ml或更高版本。
點擊創建集群.
創建目錄
按照以下步驟創建一個新的目錄,您的機器學習團隊可以在其中存儲他們的數據資產。
在分配了metastore的工作空間中,以metastore管理員身份登錄,或以用戶身份登錄
創建目錄
特權。創建一個筆記本或打開Databricks SQL編輯器。
2 .執行以下命令創建
毫升
目錄:創建目錄毫升;
在創建編目時,一個名為
默認的
在其中自動創建。授予訪問
毫升
目錄和ml.default
模式,以及創建表和視圖的能力ml_team
組。要包括所有帳戶級別的用戶,可以使用組賬戶用戶
.格蘭特使用目錄在目錄毫升來`毫升團隊`;格蘭特使用模式,創建表格在模式毫升.默認的來`ml_team`;
現在,任何用戶ml_team
組可以運行以下示例筆記本。
導入示例筆記本
首先,導入下麵的筆記本。
導入筆記本:
在筆記本旁邊,單擊複製導入鏈接.
在工作空間中,單擊工作空間.
單擊文件夾後的,然後按進口
點擊URL,然後粘貼您複製的鏈接。
導入的筆記本將出現在所選文件夾中。雙擊記事本名稱打開。
在筆記本的頂部,選擇Databricks Machine Learning集群以將筆記本附加到該集群。
筆記本分為幾個高級部分:
設置。
從CSV文件讀取數據並將其寫入Unity Catalog。
將數據加載到Pandas數據幀中並清理。
訓練一個基本分類模型。
調優超參數並優化模型。
將結果寫入新表並與其他用戶共享。
要運行單元格,請單擊運行.要運行整個筆記本,請單擊運行所有.