從三角洲表create_training_set隻是一個簡單的選擇。所有功能表隻是三角洲注冊表。下麵是一個示例代碼,用於處理:
customer_features_df =火花。sql (“SELECT * FROM recommender_system.customer_features”) product_features_df =火花。sql training_df (“SELECT * FROM recommender_system.product_features”)。加入(customer_features_df = [training_df。cid = = customer_features_df。customer_id training_df。transaction_dt = = customer_features_df。dt], = "內部")。加入(product_features_df = " product_id”,如何=“內在”)
謝謝休伯特。所以你的意思是說,如果我想讀一個功能表分開,我隻做常規的sql選擇語句功能表如表?如果一個正常的δ
“read_table”在這種情況下不需要嗎?
是的
類似的,我在努力理解一個概念在功能表。
如果我能讀一個功能表直接通過sql邏輯和過濾我的選擇的日期,那麼數據磚特性存儲不同的從一個“數據集市”,這是在時間上分離?
同樣功能的版本,每次我想讀一組不同的特性從線下商店,我隻是通過不同的列名。如何不同於普通的“選擇”在SQL語句和數據幀?
我努力證明的價值使用數據磚特性存儲我的團隊,當他們說,“它的另一個數據集市”。我有直覺,這不是,但不能給正確的推理。