替代數據是什麼?
替代數據收集的信息通過使用替代來源的數據其他人不使用;非傳統的信息來源。替代數據的分析可以提供見解之外,一個行業的常規數據源提供的能力。然而,到底被認為是替代數據變化從一個行業到另一個,因為它取決於傳統的數據源,你和你的競爭對手已經在使用。
典型的替代數據類型
當我們談論替代數據,有幾個主要應用的數據類型:
然而,替代數據還可以包括:
- 地理位置(步行)
- 信用卡交易
- 電子郵件收據
- pos交易
- 社交媒體的文章
- 在線瀏覽活動
- 集裝箱收據
- 產品評論
- 價格追蹤器
- 天氣和素質
- 飛行和航運追蹤器
近年來,增加數據來自移動設備、衛星、傳感器、和網站已經導致大量的結構化、半結構式和非結構化數據,我們參考下大數據的通用術語。使用替代數據可以獲得獨特的見解,行業競爭優勢,提振了利潤。您可以組合來自不同來源的數據集得到清晰的了解公司,市場競爭的風景。有三個主要方法,可用於替代數據的訪問:
- 采集的原始數據
- 第三方授權
- Web抓取(或網絡收集,或網絡數據提取)。web刮板是一種應用程序編程接口(API),從一個網站,能夠提取數據采集關鍵見解所需的主題必須在你的行業。新形式的網頁抓取涉及聽力從web服務器數據feed。例如,JSON是常用的作為傳輸客戶機和web服務器之間的存儲機製。
自動抓取技術
- HTML解析:HTML解析是通過使用Java腳本和目標線性或嵌套的HTML頁麵。
- DOM解析:或DOM文檔對象模型,定義了風格、結構和內容包含在XML文件中。
- 垂直聚合:垂直聚合平台是由組織有一個巨大的計算能力是Beplay体育安卓版本針對特定的垂直。
- XPath:XML路徑語言或XPath是一種查詢語言,可用於XML文檔。
- 穀歌文檔:穀歌表可以使用幾乎一樣如果你寫一個刮板在Python或Ruby這樣的編程語言,因此,這是一個很好的和快速的方法引入某些類型的刮刀的基礎知識。
- 文本模式匹配:這是一個正則表達式匹配技術,使用UNIX grep命令,和棒狀的流行的編程語言如Perl或Python。