跳轉到主要內容
Beplay体育安卓版本平台的博客

如何使用Lakehouse雙子座Cryptocurrency分析平台建立金融服務嗎Beplay体育安卓版本

分享這篇文章

這個博客已經由雙子座。我們要感謝雙子座團隊,Anil Kovvuri和斯Rajappa,為他們的貢獻。

雙子座是最頂級的集中式cryptocurrency交流在美國和全球範圍內的貿易,使客戶cryptocurrency容易和安全在我們的平台上。beplay体育app下载地址Beplay体育安卓版本

由於大量的巨大外部實時卷,我們有挑戰與我們現有的數據平台,促進內部報告。Beplay体育安卓版本具體來說,我們的數據團隊需要構建應用程序,允許用戶理解訂單數據使用以下指標:

  • 傳播分析每個cryptocurrency市場比較雙子座與競爭
  • 流動性成本每加密資產交換
  • 市場容量和資本化的穩定性分析
  • 滑移和訂單深度分析

除了建立一個儀表板,團隊接收市場數據從外部數據提供商將攝入和web應用程序中提供,提供豐富的用戶體驗,允許用戶隨時更新指標。曆史和實時數據傳輸的大量攝入,和一個可伸縮的計算平台的必要性,val和傳播計算,我們的團隊需要一個高性能的單一來源真理構建應用程序指示板。Beplay体育安卓版本

意念,創造

對於這些挑戰中,團隊定義的三個核心技術要求訂單分析平台:Beplay体育安卓版本

  • 性能數據集市,攝入的複雜數據類型的支持
  • 支持一個高度並行的分析計算引擎
  • 自助服務分析和與駐留的應用程序集成

首先,我們評估本地AWS服務來構建出訂單分析平台。Beplay体育安卓版本然而,我們內部調查結果顯示數據團隊需要花大量的時間對建立一個框架,用於攝取數據和縫合AWS本地分析服務來構建一個端到端的平台。Beplay体育安卓版本

接下來,我們評估數據lakehouse範式。lakehouse基礎和核心功能共鳴團隊作為一個有效的方法來建立數據平台。Beplay体育安卓版本磚的Lakehouse金融服務平台,我們的數據工程師團Beplay体育安卓版本隊的靈活性和能力,分析和應用毫升從一個單一的平台來支持我們的數據計劃。

回到核心技術難題,主要的難點是數據攝入。數據來自12個主要交流每天加密資產,以及回填與新密碼交流。下麵是一些數據我們對自己攝入問題:

  1. 如何有效回填曆史訂單和大規模貿易數據到到AWS S3作為焦油一次性存檔文件格式?
  2. 批量數據到達壓縮csv文件,每個交換和貿易對單獨的桶。如何有效地處理新的交易配對或交流?
  3. 外部數據提供者不發送任何信號觸發/文件,使之成為一個挑戰,知道什麼時候推一天的數據。你如何安排工作不創建外部文件觀察者嗎?
  4. 前後數據處理是一種常見的挑戰在處理數據文件。但你如何處理故障和解決工作重新啟動嗎?
  5. 你如何讓它容易使用這些數據集與SQL和Python團隊技能?

解決數據攝入問題

解決這個問題的數據攝入和回填的曆史訂單數據,團隊杠杆磚的自動加載程序功能。自動加載器是一個源文件,可以執行增量數據加載從AWS S3訂閱文件事件從輸入目錄。

攝取第三方數據到AWS S3

AWS S3 bucket訂單數據的結構。

一旦數據以一種可讀的格式,另一個問題是曆史數據的自動處理。挑戰包括清單S3目錄從一開始的時間(2014在這種情況下),處理大型文件1 gb或更多,和處理多個每天tb的數據量。處理規模,團隊利用汽車加載程序的選項限製文件的數量每消耗結構化流觸發,需要攝取的文件數量將會在十萬年在所有12個主要交流。

.option (“cloudFiles。maxFilesPerTrigger”,1000年)

除了曆史數據,雙子座接收訂單數據從數據提供者在12個主要交易所每天。團隊利用自動加載程序的能力與AWS SQS通知和流程集成到新文件。這個解決方案消除了需要一個基於時間的過程(例如一個cron作業)檢查新來的文件。數據攝取到Lakehouse,然後捕獲δ按日期格式,分區和交換類型,可用作進一步加工或消費。下麵的例子顯示如何攝取到Lakehouse數據:

# # # #讀原始發貨簿數據odf = spark.readStream。格式(“cloudFiles”)\.option (“cloudFiles.format”,“csv”)\.options(頭=“真正的”)\. schema (tradeSchema) \.load (cloudfile_source)# # # #解析貿易數據odf.createOrReplaceTempView (“orderbook_df”)odf_final = spark.sql (“選擇trade_date_utc、trade_ts_utc日期trade_dt_epoc, \的exchange_name, regexp_replace (file_indicator‘(?的數據集將會利用機器學習和分析師團隊,三角洲湖格式提供獨特的功能來管理大容量市場/蜱蟲數據——這些特性是關鍵在發展中雙子座Lakehouse平台:Beplay体育安卓版本
  • 曆史價格波動在交易所允許時間序列分析
  • 可以作為獨立的特性為許多下遊應用程序
  • 給出了衡量預測的風險和波動性

實現價格預測團隊使用訂單數據以及其他計算指標,例如,市場深度作為輸入。來確定團隊杠杆磚的價格預測AutoML,它提供了一個玻璃牆執行大規模分布式模型的實驗方法。該團隊使用不同深度學習架構,包括組件從卷積神經網絡(cnn)沿著傳統LSTMs計算機視覺類型的問題。

市場分析使用計算特性

市場分析是雙子座的關鍵回答這樣的問題“我們的市場占有率是多少?”The team came up with different ways to compute features that would answer the business problem. Below are a couple of examples that include the problem definition:

場景基於每周貿易量:

  • 雙子座的市場份額計算,用比特幣作為一個例子,是:
    (雙子座BTC交易)/(市場交易BTC)

場景基於資產托管(AUC):

  • 給雙子座洞察整個市場,使用比特幣作為例子:
    市場(雙子座BTC) / (BTC)舉行

一個簡化的、協作的所有用戶數beplay娱乐ios據Lakehouse架構

如下麵圖中所示,數據Lakehouse架構允許不同的角色在一個平台上進行協作。Beplay体育安卓版本這範圍從設計複雜的數據工程任務進行增量更新數據質量和提供簡單的訪問底層數據集使用R, SQL, Python和Scala api的數據科學家和數據分析師,所有的三角洲引擎由磚。同樣,在這種情況下,攝取豐富的銅表後自動加載程序,這些數據集是豐富通過計算額外的總量和上麵提到的時間序列預測,最後堅持黃金表報告和特別分析。

磚Lakehouse的金融服務平台,雙子座的團隊能夠利用磚的Beplay体育安卓版本SQL功能來構建內部應用程序,避免多個啤酒花和數據重複。

使用自助服務數據分析

大數據的價值主張之一Lakehouse團隊利用的數據磚的SQL功能來構建內部應用程序,避免多個啤酒花和副本的數據。團隊建立一個內部web應用程序使用燒瓶,連接到磚SQL的端點使用一個pyodbc連接器從磚。這對球隊是寶貴的,因為它消除了需要多個BI許可證的分析師Lakehouse中的數據不能直接查詢。

一旦我們有數據lakehouse磚,實現最終的表示層是一個web應用程序反應,這是可定製的根據需求分析人員需求和刷新。此外,團隊利用了磚SQL為特設內置的可視化分析。數據產品,最後的一個例子應用程序用戶界麵反應,如下所示:

雙子座的反應應用程序我們訂單分析數據來自數據磚Lakehouse金融服務平台Beplay体育安卓版本

最終的想法

鑒於需求的複雜性,數據團隊能夠利用磚Lakehouse金融服務平台架構以支持關鍵業務的需求。Beplay体育安卓版本攝入的團隊可以使用自動加載程序複雜的蜱蟲來自第三方的數據數據提供者,同時利用等三角洲湖功能分區,汽車壓實和z值支持tb在訂單查詢分析平台的規模。Beplay体育安卓版本

內置的機器學習和AutoML能力意味著團隊很快就能夠遍曆幾個模型製定基線模型支持傳播,波動性和流動性成本分析。進一步,能夠呈現出關鍵的見解通過磚SQL同時也使黃金數據層可以通過反應Web前端為分析師提供了豐富的終端用戶體驗。最後,數據不僅lakehouse提高工程師的生產力數據,分析師和AI的球隊,但我們的球隊現在可以訪問關鍵業務洞察力通過查詢到6個月的數據跨多個字節和數十億的記錄隻需要毫秒由於內置的優化。

免費試著磚

相關的帖子

看到所有Beplay体育安卓版本平台的博客的帖子
Baidu
map