概念
本節描述概念來幫助你使用磚特性存儲和功能表。
功能表
功能被組織為功能表。每個表由一個差值表和額外的元數據。
一個功能表必須有一個主鍵。功能特性表通常是計算和更新使用共同的計算功能。
特性表元數據跟蹤表的數據源生成和筆記本工作,創建或寫信給桌子上。
磚運行時的13.2及以上,如果啟用了工作區為統一目錄,您可以使用任何δ在統一編目表主鍵作為一個功能表。這些特性表被稱為“統一目錄特性表”。看到特性工程統一目錄。
功能表,存儲在本地工作區特性存儲被稱為“工作區特性表”。看到工作區中的工程特性存儲特性。
時間序列特征表
數據用於訓練模型通常內置的時間依賴關係。構建模型時,您必須考慮隻有特性值直到時間的觀察目標價值。如果你訓練後功能基於數據測量目標的時間戳值,模型的性能會受到影響。
時間序列特征表包含一個時間戳鍵列,確保訓練數據集的每一行表示的最新特性值稱為行的時間戳。您應該使用時間序列特征表特征值隨時間變化時,例如時間序列數據,基於事件的數據,或time-aggregated數據。
當你創建一個時間序列特征表,你指定時間戳與時間相關的列在你的主鍵鍵使用timestamp_keys
論點。當你使用這使時間點查找create_training_set
或score_batch
。係統執行的時間戳的加入,使用timestamp_lookup_key
你指定。
如果你不使用timestamp_keys
參數,隻有指定一個時間戳列作為主鍵列,特性存儲不適用時間點邏輯在加入時間戳列。相反,它隻匹配行匹配,而不是一個確切的時間匹配所有行之前時間戳。
離線存儲
離線存儲用於特征發現,模型訓練和批處理推理。它包含物化特性表三角洲表。
流媒體
除了批寫道,磚特性存儲支持流媒體。您可以編寫特性值從一個流源特性表,和特性計算代碼可以使用結構化流將原始數據流轉換為特征。
訓練集
訓練集由一組特性和DataFrame包含原始訓練數據,標簽,和主鍵查找功能。您創建的訓練集通過指定特性提取從特色商店,並提供在模型訓練訓練集作為輸入。
看到創建一個訓練數據集例如如何創建和使用一個訓練集。