概念

本節描述概念來幫助你使用磚特性存儲和功能表。

請注意

特性工程統一目錄公共預覽。有關詳細信息,請參見特性工程統一目錄

功能表

功能被組織為功能表。每個表由一個差值表和額外的元數據。

一個功能表必須有一個主鍵。功能特性表通常是計算和更新使用共同的計算功能。

特性表元數據跟蹤表的數據源生成和筆記本工作,創建或寫信給桌子上。

磚運行時的13.2及以上,如果啟用了工作區為統一目錄,您可以使用任何δ在統一編目表主鍵作為一個功能表。這些特性表被稱為“統一目錄特性表”。看到特性工程統一目錄

功能表,存儲在本地工作區特性存儲被稱為“工作區特性表”。看到工作區中的工程特性存儲特性

時間序列特征表

數據用於訓練模型通常內置的時間依賴關係。構建模型時,您必須考慮隻有特性值直到時間的觀察目標價值。如果你訓練後功能基於數據測量目標的時間戳值,模型的性能會受到影響。

時間序列特征表包含一個時間戳鍵列,確保訓練數據集的每一行表示的最新特性值稱為行的時間戳。您應該使用時間序列特征表特征值隨時間變化時,例如時間序列數據,基於事件的數據,或time-aggregated數據。

當你創建一個時間序列特征表,你指定時間戳與時間相關的列在你的主鍵鍵使用timestamp_keys論點。當你使用這使時間點查找create_training_setscore_batch。係統執行的時間戳的加入,使用timestamp_lookup_key你指定。

如果你不使用timestamp_keys參數,隻有指定一個時間戳列作為主鍵列,特性存儲不適用時間點邏輯在加入時間戳列。相反,它隻匹配行匹配,而不是一個確切的時間匹配所有行之前時間戳。

離線存儲

離線存儲用於特征發現,模型訓練和批處理推理。它包含物化特性表三角洲表

流媒體

除了批寫道,磚特性存儲支持流媒體。您可以編寫特性值從一個流源特性表,和特性計算代碼可以使用結構化流將原始數據流轉換為特征。

訓練集

訓練集由一組特性和DataFrame包含原始訓練數據,標簽,和主鍵查找功能。您創建的訓練集通過指定特性提取從特色商店,並提供在模型訓練訓練集作為輸入。

看到創建一個訓練數據集例如如何創建和使用一個訓練集。

模型的包裝

機器學習模型訓練使用特性從磚特性存儲保留引用這些特性。在推理時,模型可以從功能存儲檢索特征值。調用者隻需要提供主鍵的功能使用的模型(例如,user_id),檢索所需的所有特征值特征存儲模型。

在批處理推理,從離線存儲和檢索特征值與新數據之前得分。在實時推理,從在線商店中檢索特征值。

包特性的元數據模型,使用FeatureStoreClient.log_model ()