跳轉到主要內容
工程的博客

測量廣告效果與銷售預測和歸因

2020年10月5日 工程的博客

分享這篇文章

你連接的影響,市場營銷和廣告支出對推動銷售?隨著廣告景觀繼續發展,廣告商發現其越來越具有挑戰性,以有效地查明各種收入的營銷活動的影響在他們的媒體組合。

品牌每年花費數十億美元在零售推廣他們的產品。這個營銷花費計劃提前3到6個月的時間和用於驅動促銷策略來提高認識,生成試驗,提高該品牌的產品和服務的消費。整個模型是與COVID中斷。消費行為正在迅速改變,和品牌不再有奢侈的規劃促銷提前幾個月花。品牌需要做決定在幾天,甚至幾個星期,甚至在接近實時的。因此,品牌等預算轉向更靈活渠道數字廣告和促銷活動。

使得品牌這種改變並不容易。增加個性化的數字策略持有承諾交付消息最有可能引起個體消費者的共鳴。然而,傳統的統計分析和媒體計劃工具已經建立在長交貨期使用聚合數據,這使得它難以優化消息傳遞部分和個人層麵。市場營銷或媒體組合建模(嗯)通常用於理解不同營銷策略的影響相對於其他策略,並確定最優水平的花為未來的計劃,但是嗯是一個高度手冊,耗時和回顧性運動由於挑戰集成多種數據集的不同級別的聚合。

你的印刷和電視廣告公司可能會發送兩周一次的excel電子表格提供印象在指定的市場區域(DMA)水平;數字廣告公司可能提供CSV文件顯示點擊和印象在你的水平;你的銷售數據可能會收到一個市場水平;和搜索和社會每個人都有自己的專有報告通過api切片觀眾由多種因素。加劇這一挑戰是隨著品牌轉向數字媒體和敏捷方法的廣告,他們增加不同的數據集的數量,需要快速合並和分析。因此,大多數營銷人員進行嗯演習最多一次季度(通常一年一次)由於合理化和覆蓋不同的數據源是一個過程,可能需要幾周或數月的時間。

嗯是用於更廣泛的營銷投資決策水平,品牌需要快速做出決定的能力在一個好的層麵。他們需要集成新的營銷數據,進行分析,並加速決策從幾個月或幾周天或小時。品牌可以實時響應程序工作將導致更高的投資回報他們的努力。

介紹銷售預測與廣告歸因儀表板加速器的解決方案

基於最佳實踐從我們的工作領先品牌,我們開發了解決方案加速器常見用例分析和機器學習的發展保存數周或數月的時間你的數據工程師和科學家。

無論你是廣告代理商或內部營銷分析團隊,這個解決方案加速器使您可以輕鬆地插入銷售,廣告接觸,和地理數據從不同的曆史和當前的來源,看看這些推動銷售在當地的水平。這個解決方案,您也可以屬性數字營銷努力的總趨勢水平沒有餅幹/設備ID跟蹤和映射,已成為一個更大的擔憂的消息蘋果不以為然的IDFA

通常,歸因可以是一個相當昂貴的過程,尤其是對不斷更新數據集運行歸因沒有正確的技術。幸運的是,磚與三角洲湖——提供了一個統一的數據分析平台開源事務層來管理您的雲湖——大規模數據多重雲基礎設施工程和數據Beplay体育安卓版本科學。這個博客將演示數據磚如何促進了多級三角洲湖轉換、機器學習和活動的可視化數據提供可行的見解。

三件事讓這個解決方案加速器獨特的相對於其他廣告歸因工具:

  1. 能夠輕鬆地將新數據源集成到模式:三角洲體係結構的優勢之一是多麼容易混合新數據模式。通過自動化數據濃縮在三角洲湖,你可以很容易的,例如,集成一個新的數據源,使用一個不同的時間/日期格式相比,你其他的數據。這使得很容易覆蓋營銷策略到您的模型中,輕鬆地集成新的數據源。
  2. 實時儀表盤:雖然大多數嗯結果在一個時間點的分析中,加速器的自動數據管道提要輕鬆地共享指示板允許業務用戶立即地圖或預測ad-impressions-to-sales隻要這些文件生成水平甚至segment-level數據可視化。
  3. 與機器學習的集成:機器學習模型在這個解決方案中,營銷團隊可以構建更細粒度的數據自上而下或地麵行動的看法,每日廣告客戶群體的共鳴,甚至個人層麵。

通過提供結構和模式執行在所有你的營銷數據,三角洲湖磚可以讓這個中央的消費數據來源BI和AI團隊,有效地讓這個營銷數據湖。

該解決方案如何擴展和改善傳統嗎、預測和歸因
這個解決方案兩個最大的優勢是更快的洞察力和增加時間粒度相對於傳統嗯,預報,和歸因結合可靠數據攝入&準備,敏捷數據分析和機器學習努力成為一個統一的見解平台。Beplay体育安卓版本

當試圖確定活動花優化通過嗯,營銷人員傳統上依靠手工流程來收集長期媒體購買數據,以及觀察宏觀因素可能影響活動,促銷等競爭對手,品牌資產,季節性或經濟因素。典型的嗯周期可能需要數周或數月,通常不提供可行的見解直到很久以後活動已經生活,有時,直到活動結束!在傳統的營銷組合模型建立和驗證,它可能是來不及行動有價值的見解和關鍵因素,以確保最大限度地有效的運動。

此外,嗯重點推薦媒體組合策略從宏觀的角度隻提供自上而下的觀點沒有考慮最優信息以更細的粒度。作為廣告的努力嚴重轉向數字媒體,傳統嗯方法未能提供深入了解這些用戶級機會可以有效地優化。

通過統一的攝取、加工、分析和數據科學的廣告數據到一個單獨的平台、營銷數據團隊可以產生自頂向下和自底向上粒度級別的見解。Beplay体育安卓版本這將使營銷人員執行直接量甚至用戶級深潛水,和幫助廣告商確定精確的營銷組合最影響他們的努力正在優化正確的信息在正確的時間通過正確的渠道。簡而言之,營銷人員將極大的受益更有效和統一的測量方法。

解決方案概述

體係結構概述磚的銷售預測和廣告歸因儀表板加速器的解決方案。

在高級別上連接一個時間序列的區域銷售區域離線和在線廣告的印象超過三十天。用毫升比較不同類型的測量(電視印象或毛評點與數碼旗幟點擊與社會等)在所有地區,然後我們關聯的類型訂婚增量區域銷售為了建立歸因和預測模型。挑戰等合並廣告kpi的印象,來自不同數據源的點擊,頁麵瀏覽量與不同的模式(例如,一個源可能使用天部分測量印象而另一個使用確切的日期和時間;位置可以通過郵政編碼在一個源和在另一個市區)。

作為一個例子,我們使用的是SafeGraph豐富的數據集客流量數據從同一連鎖餐館。當我們使用嘲笑離線存儲訪問對於這個示例,您可以很輕鬆地插入離線和在線銷售地區和日期提供的數據包括在你的銷售數據。我們將讀到不同位置的店內訪問數據,探索PySpark和火花SQL中的數據,並使數據清潔,可靠和分析準備毫升的任務。對於這個示例,營銷團隊想要找出哪些網絡媒體是最有效的渠道推動店內參觀。

主要步驟是:

  1. 攝入:模擬月客流量時間序列SafeGraph格式——這裏我們嘲笑數據以適應模式(青銅)
  2. 工程特點:轉換為月度時間序列數據我們匹配數值的訪問數量/日期(行=日期)(銀)
  3. 數據濃縮:覆蓋區域活動數據區域銷售。進行探索性分析等功能分布的檢查和變量變換(黃金)
  4. 高級分析/機器學習:構建預測與歸因模型

的數據:

我們使用SafeGraph提取店內訪問模式。SafeGraph的地方模式是匿名的數據集和聚合訪客定居和訪客人口數據可供~ 3.6毫米的興趣點(POI)在美國。在這個練習中,我們看曆史數據(2019年1月- 2020年2月)一組有限服務的餐廳店內訪問紐約。

1。數據攝取到三角洲格式(青銅)

從筆記本”運動Effectiveness_Forecasting腳Traffic_ETL”。

第一步是加載數據從blob存儲。近年來越來越多的廣告商選擇攝取他們的競選blob存儲數據。例如,您可以通過FBX Facebook廣告見解API以編程方式檢索數據。你可以查詢端點的印象,點擊率數據,中國共產黨。在大多數情況下,數據將返回在CSV或XLS格式。在我們的示例中,配置相當無縫:我們pre-mount dbfs S3 bucket,這樣一旦設置源文件的目錄,我們可以直接加載原始CSV文件從blob數據磚。

raw_sim_ft = spark.read。格式(“csv”).option (“頭”,“真正的”).option (“9”,”、“).load (“/ tmp / altdata_poi / foot_traffic.csv”)raw_sim_ft.createOrReplaceTempView (“safegraph_sim_foot_traffic”)

然後創建一個臨時視圖允許我直接與這些文件使用火花SQL交互。因為店內訪日是一個大數組在這一點上,我們將有一些特性工程以後的工作要做。在這一點上我準備使用三角洲寫出數據格式創建三角洲湖青銅表來捕獲所有原始數據指向一個blob的位置。銅表作為數據的第一站湖泊,原始數據從各種來源哪裏來不斷通過批處理或流,這是一個地方的數據可以被捕獲並存儲在原來的原始格式。數據在這個步驟可以是肮髒的,因為它來自於不同的來源。

raw_sim_ft.write。格式(“δ”).mode (“覆蓋”).save (“/ home /蕾拉/數據/表/ footTrafficBronze ')

2。特性工程做銷售時間序列準備陰謀(銀)

將原始數據後,我們現在有一些數據清洗和特性的工程任務。例如,添加MSA地區和解析月/年。因為我們發現visit_by_date是一個數組,我們需要爆炸的數據到單獨的行。這個功能塊將平數組。跑後,它將返回visits_by_day df, num_visit映射到每一行:

def解析器(元素):返回json.loads(元素)defparser_maptype(元素):返回json。負載(元素,MapType (StringType (), IntegerType ()))jsonudf = udf(解析器,MapType (StringType (), IntegerType ()))convert_array_to_dict_udf = udf (λ加勒比海盜:{idx: xidx x列舉(json.loads (arr)}, MapType (StringType (), IntegerType ()))defexplode_json_column_with_labels(df_parsed column_to_explode key_col =“關鍵”value_col =“價值”):df_exploded = df_parsed.select (“safegraph_place_id”,“location_name”,“msa”,“date_range_start”,“年”,“月”,“date_range_end”爆炸(column_to_explode)) .selectExpr (“safegraph_place_id”,“date_range_end”,“location_name”,“msa”,“date_range_start”,“年”,“月”,“關鍵是{0}”格式(key_col),“價值為{0}”格式(value_col))返回(df_exploded)

工程特性後,數據準備好供下遊業務團隊使用。我們可以持續數據三角洲湖銀表,這樣團隊中的每個人都可以直接訪問數據。在這個階段,數據是幹淨的和多個下遊黃金表將取決於它。不同的業務團隊可能有自己的業務邏輯進行進一步的數據轉換。例如,你可以想象我們有一個銀表“特性分析”,水合物幾個下遊表有不同目的像填充一個見解儀表盤、生成報告使用一組指標,或喂養ML算法。

3所示。數據濃縮與廣告覆蓋(金-分析做好準備)

在這一點上,我們已經準備好豐富的數據集在線競選媒體數據。在傳統的嗯數據收集階段、數據濃縮服務通常發生在數據湖,到達分析平台。Beplay体育安卓版本用方法的目標是一樣的:把一個商業廣告的基本數據(即印象、點擊、轉換,觀眾屬性)成一個更完整的畫卷的人口,地理、心理、和/或采購行為。

數據濃縮不是一個一次性的過程。觀眾信息,如位置、偏好和行為隨時間變化。通過利用三角洲湖、廣告數據和觀眾概要文件可以持續更新,以確保數據保持清潔,相關和有用的。營銷人員和數據分析師可以構建更完整的消費資料,與客戶發展。在我們的例子中,我們有旗幟印象,社會媒體FB喜歡和web登錄頁麵訪問。使用SQL火花很容易加入不同的數據流,原dataframe。為了進一步豐富數據,我們稱之為Google趨勢API將在穀歌趨勢有機搜索關鍵字搜索索引來表示元素——這個數據是來自穀歌趨勢

def解析器(元素):x返回json.loads(元素)defparser_maptype(元素):返回json。負載(元素,MapType (StringType (), IntegerType ()))
              jsonudf = udf(解析器,MapType (StringType (), IntegerType ()))convert_array_to_dict_udf = udf (λ加勒比海盜:{idx: xidx x列舉(json.loads (arr)}, MapType (StringType (), IntegerType ()))defexplode_json_column_with_labels(df_parsed column_to_explode key_col =“關鍵”value_col =“價值”):df_exploded = df_parsed.select (“safegraph_place_id”,“location_name”,“msa”,“date_range_start”,“年”,“月”,“date_range_end”爆炸(column_to_explode)) .selectExpr (“safegraph_place_id”,“date_range_end”,“location_name”,“msa”,“date_range_start”,“年”,“月”,“關鍵是{0}”格式(key_col),“價值為{0}”格式(value_col))返回(df_exploded)

磚的營銷組合分析的解決方案,你可以快速生成的見解通過繪製時序圖,例如,可視化趨勢項或數值。

最後,一個數據集結合店內num_visit和在線媒體數據。我們可以快速獲得的見解通過繪製num_visit時間序列。例如,您可以使用圖形可視化趨勢項或數值。在我們的案例中,因為日期和時間信息是一個連續聚合統計數據,點繪製沿x軸和由實線連接。缺失的數據顯示虛線。

時間序列圖可以回答關於你的數據的問題,如:隨時間變化的趨勢如何?或者我有缺失值嗎?下麵的圖顯示了從1月店內參觀,2019年2月,2020年。店內的最高時期訪問發生在2019年9月中旬。如果營銷活動發生在這兩個月裏,這將意味著活動是有效的,但隻有在有限的時間內。

磚營銷組合的分析產生的時間序列可視化解決方案給簡要回答諸如“隨時間變化趨勢如何?”或“數據缺失什麼?”

我們寫出這個幹淨、三角洲湖豐富的數據集,創建一個黃金表上。

4所示。先進的分析和機器學習來構建預測和歸因模型

傳統嗯使用方差分析和多重回歸的組合。在這個解決方案中,我們將演示如何使用一個XGBoost ML算法固有的優點是模型講解員世鵬科技電子在第二毫升筆記本。即使這個解決方案沒有取代傳統嗯過程,傳統嗯統計學家可以編寫單個節點的代碼,並使用pandas_udf運行它。

下一步,使用筆記本”運動Effectiveness_Forecasting腳Traffic_機器學習”。

到目前為止,我們使用磚攝取和把所有的原始數據;然後清洗、轉換和添加額外的可靠性數據通過編寫三角洲湖為更快的查詢性能

在這一點上,我們應該對數據集感覺不錯。現在是時候來創建歸因模式。我們要用黃金策劃表數據仔細觀察行人在紐約了解快餐連鎖店的各種廣告宣傳努力推動店內訪問。

主要步驟是:

  1. 創建一種機器學習方法,預測數量的店內訪問給定一組網絡媒體數據
  2. 利用世鵬科技電子模型翻譯再混合的模型預測和量化多少客流量一定媒體頻道開車

作為數據科學的標準步驟,我們想了解目標變量的概率分布store-visit和潛在的特性,因為它告訴我們所有可能的值(或間隔)的數據意味著人口的基本特征。從這個圖表我們可以快速識別,紐約州立店內參觀,有兩個峰值,表明多通道分布。這意味著人口潛在的差異在不同的領域,我們應該進一步深入。

%sql選擇*(選擇地區、城市、(一年作為整數)一年,(作為整數),(一天作為整數)一天,總和(num_visits) num_visitslayla_v2.Subway_foot_traffic在哪裏地區=“紐約”num_visits> =50集團通過地區、城市、(一年作為整數),(作為整數),(一天作為整數)訂單通過一年,,一天,num_visits)

磚的營銷組合分析解決方案使用歸因模型幫助廣告主理解概率分布和回答這樣的問題為什麼一個城市的腳交通不同於其他人。

當分離紐約市交通從所有其他城市,看起來接近正常——紐約分布一定是一個獨特的地區!

磚的營銷組合分析解決方案允許廣告商向下鑽取到數據集和隔離並得出結論,例如,特定於紐約市步行。

然後我們也檢查的所有特性的分布使用qq情節和正常測試。從圖表我們可以告訴看起來很正態分布的特性。良好的鍾形曲線。

磚營銷組合的分析解決方案允許數據科學團隊檢查分配的所有功能使用qq情節和正常測試。

磚做分析的一個重要優點是,我可以自由開關從火花dataframe到熊貓,和使用流行的可視化庫圖繪製圖表在筆記本上探索我的數據。下麵的圖表是陰謀。我們可以放大,縮小,鑽在密切關注任何數據點。

情節與放大圖麵板

正如我們所看到的,它很容易創建所需的所有統計圖,我們不離開相同的筆記本的環境。

現在,我們相信,適用於模型訓練數據。讓我們訓練預測模型。算法的選擇,我們將使用XGBoost。數據集並不大,所以單節點訓練是一種有效的方法。數據符合記憶時,我們建議您火車毫升模型在單個機器上如果訓練數據大小適合內存(說HyperOpt——分布式優化模型的超參數,以便我們可以找到最好的hyperparameters:效率提高了

hyperopt進口fmin, tpe,蘭德、惠普、試驗,STATUS_OK進口xgboostxgboost進口XGBRegressorsklearn.model_selection進口cross_val_score進口mlflow進口mlflow.xgboostsklearn.model_selection進口train_test_splitpdf = city_pdf.copy ()X_train、X_test y_train y_test = train_test_split (pdf.drop ([“地區”,“年”,“月”,“天”,“日期”,“num_visits”),軸=1pdf (),“num_visits”),test_size =0.33random_state =55)def火車(參數個數):”“”一個例子訓練方法,計算輸入的平方。該方法將被傳遞給“hyperopt.fmin ()”。:param參數:hyperparameters。它的結構是一致的搜索空間是如何定義的。見下文。:返回:dict字段“損失”(標量損失)和“狀態”(成功/失敗運行狀態)”“”curr_model = XGBRegressor (learning_rate = params [0),γ=int(params [1]),max_depth =int(params [2]),n_estimators =int(params [3]),min_child_weight = params [4)、客觀=“注冊:squarederror”)分數= -cross_val_score (curr_model X_train y_train,得分=“neg_mean_squared_error”).mean ()分數= np.array(分數)返回{“損失”:分數,“狀態”:STATUS_OK,“模型”:curr_model}
              #定義搜索參數和離散或連續search_space = [hp.uniform (“learning_rate”,0,1),hp.uniform (“伽馬”,0,5),hp.randint (“max_depth”,10),hp.randint (“n_estimators”,20.),hp.randint (“min_child_weight”,10)]#定義搜索算法(TPE或隨機搜索)算法= tpe.suggesthyperopt進口SparkTrialssearch_parallelism =4spark_trials = SparkTrials(並行= search_parallelism)mlflow.start_run ():argmin = fmin (fn =火車,空間= search_space,算法=算法,max_evals =8,試驗= spark_trials)
              deffit_best_model(X, y):客戶= mlflow.tracking.MlflowClient ()experiment_id = client.get_experiment_by_name .experiment_id (experiment_name)
              運行= mlflow.search_runs (experiment_id)best_loss =[運行“metrics.loss”]。最小值()best_run =運行(運行(“metrics.loss”)= = best_loss)
              best_params = {}best_params [“伽馬”]=浮動(best_run [“params.gamma”])best_params [“learning_rate”]=浮動(best_run [“params.learning_rate”])best_params [“max_depth”]=浮動(best_run [“params.max_depth”])best_params [“min_child_weight”]=浮動(best_run [“params.min_child_weight”])best_params [“n_estimators”]=浮動(best_run [“params.n_estimators”])xgb_regressor = XGBRegressor (learning_rate = best_params [“learning_rate”),max_depth =int(best_params [“max_depth”]),n_estimators =int(best_params [“n_estimators”]),γ=int(best_params [“伽馬”]),min_child_weight = best_params [“min_child_weight”)、客觀=“注冊:squarederror”)xgb_model = xgb_regressor。符合(X, y,冗長的=)返回(xgb_model)#使用最適合的模型參數和測井模型xgb_model = fit_best_model (X_train y_train)mlflow.xgboost.log_model (xgb_model“xgboost”)#記錄模型
              sklearn.metrics進口r2_scoresklearn.metrics進口mean_squared_errortrain_pred = xgb_model.predict (X_train)test_pred = xgb_model.predict (X_test)

磚的營銷組合分析的解決方案,它可以利用一個運行時AutoML功能(HyperOp)分布優化模型的超參數,以便我們可以增加找到最好的hyperparameters的效率。

注意,通過指定Spark_trials, HyperOpt自動分配一個調優工作在一個Apache火花集群。HyperOpt發現最好的一組參數後,我們隻需要適應模型一旦得到最好的模型適合比跑步更有效迭代模型的適合和交叉驗證來找到最好的模型。現在我們可以使用擬合模型預測紐約店內交通:

deffit_best_model(X, y):客戶= mlflow.tracking.MlflowClient ()experiment_id = client.get_experiment_by_name .experiment_id (experiment_name)
              運行= mlflow.search_runs (experiment_id)best_loss =[運行“metrics.loss”]。最小值()best_run =運行(運行(“metrics.loss”)= = best_loss)
              best_params = {}best_params [“伽馬”]=浮動(best_run [“params.gamma”])best_params [“learning_rate”]=浮動(best_run [“params.learning_rate”])best_params [“max_depth”]=浮動(best_run [“params.max_depth”])best_params [“min_child_weight”]=浮動(best_run [“params.min_child_weight”])best_params [“n_estimators”]=浮動(best_run [“params.n_estimators”])xgb_regressor = XGBRegressor (learning_rate = best_params [“learning_rate”),max_depth =int(best_params [“max_depth”]),n_estimators =int(best_params [“n_estimators”]),γ=int(best_params [“伽馬”]),min_child_weight = best_params [“min_child_weight”)、客觀=“注冊:squarederror”)xgb_model = xgb_regressor。符合(X, y,冗長的=)返回(xgb_model)#使用最適合的模型參數和測井模型xgb_model = fit_best_model (X_train y_train)mlflow.xgboost.log_model (xgb_model“xgboost”)#記錄模型sklearn.metrics進口r2_scoresklearn.metrics進口mean_squared_errortrain_pred = xgb_model.predict (X_train)test_pred = xgb_model.predict (X_test)

磚的營銷組合分析的解決方案,可以使用HyperOpt自動分配一個調優工作跨火花集群,例如,找到最優模型預測intore交通對一個特定的城市。

紅線是預測而藍色是實際訪問——盡管它看起來像模型捕獲主要趨勢錯過幾峰值。以後肯定需要一些調整。不過,很體麵的如此之快的努力!

一旦我們得到預測模型,一個自然的問題是如何模型進行預測呢?怎麼每個特性有助於這個黑盒算法?在我們的案例中,問題變成了“多少錢每個媒體輸入導致店內人流量。”

通過直接使用世鵬科技電子圖書館是一個開源軟件模型翻譯,我們可以很快得到見解,如“什麼是最重要的媒體渠道駕駛我的線下活動嗎?”

有一些好處,我們可以使用世鵬科技電子。首先,它可以解釋在個人的層麵上輸入:每個觀測將有其自己的一套世鵬科技電子值相比傳統功能重要性算法告訴我們哪些特性是最重要的在整個人口。然而,通過隻看趨勢在全球層麵,這些個體差異可以迷路了,隻剩下最常見的分母。個體層麵的世鵬科技電子值,我們可以確定哪些因素最有效的為每一個觀察,讓我們使生成的模型更加健壯和見解更可行的。所以在我們的例子中,它將計算每個媒體世鵬科技電子值輸入每天店內參觀。

沙普利值的圖表,我們可以快速識別社交媒體和著陸頁訪問最高貢獻模型:

世鵬科技電子。總和mary_plot(shap_values, X, plot_type=“酒吧”)

磚的營銷組合分析的解決方案,可以使用世鵬科技電子圖書館快速識別,例如,社交媒體和著陸頁訪問最高貢獻模型。

顯示器(spark.createDataFrame (排序(列表(郵政編碼(mean_abs_shap X.columns)),反向=真正的):8]、[“意思是| |穿刺法”,“特性”)))

磚的營銷組合分析的解決方案,可以使用世鵬科技電子圖書館快速獲得的見解,如“什麼是最重要的媒體渠道駕駛我的線下活動嗎?”

世鵬科技電子可以提供媒體組合的細粒度的洞察力在個體層麵的貢獻。我們可以直接與特性值的單位輸出。世鵬科技電子是能夠量化的影響特性模型的單元目標,店內參觀。在這個圖中,我們試圖預測薪水,我們可以閱讀的單元特性的影響,從而大大提高了解釋結果相比相對分數從功能的重要性。

plot_html = shap.force_plot(講解員。expected_value shap_values [n: n +1),feature_names = X。列,plot_cmap =“GnPR”)displayHTML (bundle_js + plot_html.data)

磚的營銷組合分析的解決方案,可以使用世鵬科技電子圖書館來量化,例如,一個特性的影響模型的單元目標,店內參觀。

最後我們可以創建完整的日常定居時間序列分解圖,有一個清晰的理解如何店內每個網絡媒體輸入訪問屬性。傳統上,它要求數據科學家構建decomp矩陣,涉及一個混亂的轉換和反複計算。這裏與世鵬科技電子得到盒子的價值!

進口plotly.graph_objects作為
              無花果= go.Figure (data = (go.Bar (name =“base_value”x = shap_values_pdf [“日期”),y = shap_values_pdf [“base_value”),marker_color =“lightblue”),go.Bar (name =“banner_imp”x = shap_values_pdf [“日期”),y = shap_values_pdf [“banner_imp”]),go.Bar (name =“social_media_like”x = shap_values_pdf [“日期”),y = shap_values_pdf [“social_media_like”]),go.Bar (name =“landing_page_visit”x = shap_values_pdf [“日期”),y = shap_values_pdf [“landing_page_visit”]),go.Bar (name =“google_trend”x = shap_values_pdf [“日期”),y = shap_values_pdf [“google_trend”])])#改變模式fig.update_layout (barmode =“棧”)fig.show ()

情節與放大圖麵板

我們正在背後的代碼分析可供下載和審查。如果你有任何問題關於這個解決方案可以部署在您的環境中,請不要猶豫接觸給我們。

養成用筆記本

免費試著磚

相關的帖子

看到所有工程的博客的帖子
Baidu
map