跳轉到主要內容
公司博客上

磚,AWS, SafeGraph團隊更容易對消費者行為的分析

2019年11月14日 公司博客上

分享這篇文章

這個筆記本是生產之間的合作SafeGraph

  • @ SafeGraph瑞安福克斯鄉紳、產品數據的科學家
  • 解決方案架構師安德魯•哈欽森@磚
  • 普拉薩德背風麵、合作夥伴解決方案架構師@磚

我們已經創建了這個磚的筆記本(.dbc下載在這裏),發表這篇博客,所以您可以使用SafeGraph旗開得勝的磚的AWS數據交換數據。隨時可以運行的代碼,請參閱互補的磚筆記本

看到完整的SafeGraph數據集訪問SafeGraph數據欄

了解更多,現在注冊這個網絡研討會:為機器學習在SafeGraph建立可靠的數據管道

這個博客將告訴你:

  • 如何加載SafeGraph模式對消費者的興趣點數據(一個豐富的數據集)AWS s3(通過AWS數據交換)成磚的筆記本。
  • 如何充分利用磚三角洲湖的技術
  • 如何使用SafeGraph數據離線分析消費者行為和定居主要公司零售和餐飲品牌,像星巴克。
    • 一天和一周的日子是星巴克最受歡迎或至少忙嗎?
    • 客戶多久呆在他們訪問星巴beplay体育app下载地址克嗎?
    • 如何遠離家鄉的客戶旅行去星巴克嗎?beplay体育app下载地址
    • 星巴克的顧客的購物品牌偏好是什麼?beplay体育app下载地址他們訪問其他商店做什麼?
    • 我怎麼能使用SafeGraph數據,結合人口普查數據,對客戶人口統計分析和構建客戶人口統計資料嗎?

今年上半年筆記本顯示了如何閱讀,負載,和準備數據。第二部分展示了如何使用火花sql回答分析問題。

問題嗎?與我們取得聯係(電子郵件保護)

SafeGraph模式是什麼?

SafeGraph地理空間數據公司專注於理解物質世界。SafeGraph模式是3.6毫米的商業實體的數據集的興趣點(POI)在美國和包括匿名統計每個月有多少人訪問這些POI。遊客來自一個匿名的計數麵板(人口樣本測量縱向)~ 35 mm移動設備(如智能手機)在美國。

SafeGraph模式旨在回答這樣的問題:

  • 有多少人訪問一個地方嗎?他們訪問的頻率?
  • 有多少訪問者從我們小組去這個地方?
  • 平均而言,遊客來自人口普查區域做什麼?
  • 什麼是遊客的購物行為從一個POI到另一個?
  • 什麼一天和一周內的人訪問?
  • 如何遠離家鄉做遊客前往參觀這個地方嗎?
  • 人們多久呆在這個地方,當他們訪問?

個人消費者隱私保護的核心SafeGraph使命:

“SafeGraph的使命是使世界的數據開放創新的同時保護個人隱私。”-SafeGraph願景和價值觀

麵板是完全匿名的設備;不存在身份或人口統計信息設備的麵板,和個人設備級的數據不存在SafeGraph產品。的聚合形式SafeGraph模式有助於確保保護個人的隱私,同時也提供可操作的數據統計分析和數據的科學。SafeGraph模式的所有細節,請參閱SafeGraph模式文檔

磚是什麼?

磚是一個統一的分析平台,使數據科學、工程和數據業務分析團隊價值來自數Beplay体育安卓版本據規模和易用性以協作的方式。beplay娱乐ios

在其核心,磚平台是由Apache火花和三角洲湖在原生雲架Beplay体育安卓版本構中,給用戶無限馬力獲取、幹淨、變換,結合和分析數據集在幾分鍾內從一個筆記本接口,與流行的語言的選擇(python, scala, SQL, R)。

因為磚是一個管理平台,客戶沒有成為大數據devops大師,他們的Beplay体育安卓版本分析需求,從而減少行beplay体育app下载地址政負擔,他們的數據驅動的項目的成本和風險。

三角洲湖,也出現在下麵的Safegraph筆記本,磚平台帶來了獨特的功能:Beplay体育安卓版本

  • 可靠性:三角洲湖湖提高數據集數據的完整性,數據工程管道事務——酸語義,當應用於工程和機器學習的數據,給客戶信心他們所做的對高質量的分析數據和問題,如部分攝取數據集,髒讀取和並發不斷獲得新的數據自動照顧。beplay体育app下载地址
  • 性能:三角洲湖有特定優化下麵的容器,如智能緩存,auto-collection統計,壓實和z值,加速性能的數據工程管道&報告進行清理數據。

我們如何從AWS數據交換SafeGraph模式加載到磚數據湖?

展示的力量SafeGraph磚內部數據,我們強調三個數據集在AWS SafeGraph目前免費交換。

  1. SafeGraph模式——星巴克在美國
  2. SafeGraph核心——星巴克在美國的地方
  3. SafeGraph開放的人口普查數據

按照以下步驟在AWS訂閱Safegraph數據集的數據交換

  • 轉到AWS在AWS帳戶和數據交換服務搜索“SafeGraph普查——星巴克在美國模式

  • AWS的訂閱3 Safegraph以上數據集的數據交換界麵

  • 訂閱過程需要幾分鍾——一旦它完成你將看到下麵的訂閱,訂閱用戶界麵像

  • S3存儲桶3訂閱數據導入到您所選擇的通過點擊訂閱用戶界麵中的數據集名稱和導出S3流後修訂id。

  • 一旦數據被出口到你選擇的S3 bucket,下載數據磚筆記本的磚鏈接的任何數據集

  • 創建並啟動一個交互式數據磚集群
    • 指令如何創建一個交互式數據磚集群
    • 一個兩節點集群i3.2xl應該足夠了
    • 確保您的集群訪問權鬥,你進口AWS Safegraph數據集的數據交換
  • 進口磚筆記本從Safegraphs AWS下載數據交換界麵
  • 附上進口筆記本集群
  • 更新筆記本參數指向S3 bucket
    • 取代“三角洲外部表位置”參數在筆記本上指向一個文件夾選擇以上配置S3 bucket -這就是磚將編寫優化增量數據集
    • 取代開放的人口普查,Safegraph核心位置和Safegraph模式參數指向相應的AWS數據交換數據集你進口S3 bucket

  • 單擊Run執行所有筆記本

  • 筆記本然後解析,清洗,加入上述數據並將它們轉換為三角洲大規模快速分析表——所有這些工作是創建的磚集群上執行。

  • 以上用戶體驗相關客戶無論大小的數據,用戶關注底層磚自動集群beplay体育app下载地址規模的分析和處理體積pb無需用戶成為大數據devops專家。

我能了解消費者行為在磚使用SafeGraph數據嗎?

一旦SafeGraph數據加載到數據磚,一群興奮的回答關於消費者行為在你的指尖。

看到這些實現磚筆記本,結賬隨行演示的筆記本

人訪問星巴克每天的時間做什麼?

幾行代碼你可以檢查單個位置的相對受歡迎程度的星巴克,星巴克全國各地以及平均受歡迎。每個safegraph_place_id是一個不同的獨特的星巴克的位置。x軸顯示每小時一天(當地時間)從(0)午夜11點(23)。y軸反映了發生在每小時有多少訪問,總結所有的日子,整個月的總訪問量的百分之一(注意,跨小時——邊界的訪問將在多個小時數。因此,總%所有小時可能會增加> 100%)。

我們看到,雖然在早晨交通肯定會加大,高峰流量實際上是在12點到1點。

人訪問星巴克本周天做什麼?

我們可以問同樣的問題,但天的星期很受歡迎。

看20個隨機星巴克例子我們看到平均不天強烈優於他人。然而,一些POI做展示有趣的周末和工作日的差異。

我們可以檢查這些POI之一,是全國平均水平的比較。

這些數據表明,平均在全國範圍內,在星巴克本周最繁忙的日子是周三和周四,盡管這是一個溫和的偏好。相比之下,safegraph_place_idsg: 68513387500 e48eb87d719207d058309顯示了一個非常不同的模式和更受歡迎的在周末與平日相比。

想象這個POI的位置,你可以閱讀(經度、緯度)SafeGraph數據集,在穀歌地圖上搜索它。事實證明,這個特定的星巴克位於波士頓大學法學院的校園。大概在周末舉行的類是不引起這個差異非常大的工作日和周末。

人們旅行去星巴克多遠?

SafeGraph報告平均行駛距離(從家裏的人口普查塊組)為每個POI。用這個我們可以構造一個星巴克的柱狀圖位置,顯示多少人去星巴克。

這些數據表明,大多數星巴克的地方吸引遊客生活不到10公裏。然而星巴克有一條細長的尾巴的位置與中等距離的房屋數百公裏。這些位置可能在high-tourist或high-commute領域(如在機場)大多數遊客並不住的地方附近的地理位置。

星巴克的顧客的購物偏好是什麼?beplay体育app下载地址

related_same_month_brandrelated_same_day_brand報告的頻率指數還參觀POI訪問訪問其他品牌(相對於遊客平均品牌)。

在這裏,我們看看其他品牌星巴克的顧客經常光顧。beplay体育app下载地址指數越大,星巴克的顧客越頻繁訪問這個品牌。beplay体育app下载地址

雖然星巴克是全國連鎖,跨品牌購物深受當地套裝中的地理位置。這裏我們展示的五大頂級購物品牌星巴克的顧客在加州,紐約,得克薩斯。beplay体育app下载地址隻有麥當勞是在前5的3。

分析一個品牌的客戶人口統計數據

您可以使用SafeGraph磚的AWS數據交換數據來分析個人POI的客戶人口統計或品牌。深潛水的方法論以及更完整的統計分析隨意讀這工作簿

我們沿著種族人口分析星巴克客戶人口統計維度使用可以從SafeGraph AWS數據交換。

這種分析可以重複任何人口普查,跟蹤的信息和報道普查塊組級別。包括種族,教育水平,家庭收入,還有更多,更多。

為此分析我們將使用:

  • 人口普查數據(從開放的人口普查數據)
  • SafeGraph模式數據,特別是visitor_home_cbgs
  • SafeGraph麵板數據概述

y軸顯示了每個人口段訪客總量的%。

基線人口統計學顯示美國的作為參考。SafeGraph模式顯示有趣的星巴克顧客的人口普查區域之間的差異比整個美國的人口beplay体育app下载地址

  • SafeGraph模式數據顯示,平均而言,家庭人口普查塊組(cbre)星巴克的顧客78.4%的白人,而美國人口隻有73.3%的白人。beplay体育app下载地址換句話說,家中人口普查的星巴克的顧客比美國人口比例更大白色。beplay体育app下载地址
  • cbre的星巴克的顧客是一個更大的亞洲部分,相對於美國beplay体育app下载地址的人口。
  • cbre的星巴克的顧客是一個較小的一部分黑人或非裔美國beplay体育app下载地址人比整個美國的平均水平。

重要的是,這些差異並不是由於地理SafeGraph抽樣偏差的數據集。的確,SafeGraph數據集有小地域偏見。對於一個完整的報告“偏見SafeGraph數據集呢?”。然而,我們能夠測量和糾正小的影響抽樣偏差在SafeGraph數據集的一部分cbg_adjust_factor計算。如果觀察到的差異僅僅是由於SafeGraph地理抽樣偏差的數據集,然後他們修正後就會消失。的差異,仍然不能歸咎於抽樣偏差。全麵討論這種方法,請參閱一個工作簿從SafeGraph模式數據來分析人口統計資料

總結

  • 閱讀SafeGraph AWS的數據數據交換成磚是快速和容易。
  • 結合這些技術和數據使您能夠回答強大和精確的關於消費者行為的問題。

感謝你的閱讀!

想要獲得更多SafeGraph數據?

  • 有超過20個數據集免費或購買AWS的數據交換。檢查出來!
  • 你可以下載csv數據在超過6毫米的興趣點SafeGraph數據欄。使用優惠券代碼SafeGraphAWSDatabricksNotebook200美元的免費數據。
  • 這個筆記本的問題嗎?我們寫信(電子郵件保護)
免費試著磚
看到所有公司博客上的帖子
Baidu
map