簡化使用三角洲湖流股票分析和Apache火花:按需網絡研討會和FAQ現在可用!
2019年6月18日 在公司博客上
得到一個O ' reilly的新電子書的早期預覽一步一步的指導你需要開始使用三角洲湖。
6月13日,我們舉辦了一個研討會,簡化使用三角洲湖流股票分析和Apache Nakai火花——軍政府,在磚行業領袖——金融服務,約翰O 'Dwyer,解決方案架構師在磚,磚和丹尼·李、技術產品營銷經理。這是第一次研討會在一係列的金融服務網絡研討會從磚和是一個博客的延伸簡化使用三角洲湖流股票數據分析。
分析交易和股票數據?傳統上,實時股票數據分析是一個複雜的努力維護一個流媒體係統的複雜性和確保遺留和流媒體數據並發事務一致性。三角洲湖幫助解決許多痛點的流媒體係統的股票數據進行實時分析。
在這個網絡研討會中,我們將回顧:
- 當前運行這樣一個係統的問題。
- 三角洲湖是如何解決這些問題。
- 如何實現係統在磚。
三角洲湖幫助解決這些問題通過結合的可伸縮性,流媒體,訪問Apache火花的高級分析與數據倉庫的性能和酸合規。
在研討會期間,我們展示了流股票分析與三角洲湖筆記本。運行它自己,請下載以下筆記本:
- 流與三角洲湖股票分析:設置——第一次運行這個筆記本所以它可以自動下載生成的源數據,並開始加載數據到一個文件位置。
- 流與三角洲湖股票分析——這是最主要的筆記本的上下文中展示了三角洲湖流包括股票分析統一的流,批量同步和時間旅行。
我們還展示在實時流媒體數據的更新和批處理股票分析數據連接在一起,在下麵的圖像。
到最後,我們還舉行了問答,和下麵的問題和答案。
問:什麼是三角洲湖和Apache鑲花的區別?
三角洲湖是一個開源存儲層,給Apache火花™和大數據帶來ACID事務工作負載。而三角洲湖Apache鋪中存儲數據的格式,它包括允許的功能數據的湖泊在規模是可靠的。這些特性包括:
- ACID事務:三角洲湖確保數據完整性和提供可串行性。
- 可擴展的元數據處理:對於大數據係統,元數據本身往往是“大”足以減緩任何係統,試圖理解它,更不用說進行實際意義上的基礎數據。三角洲湖將元數據常規數據和利用Apache火花的分布式處理能力。因此,三角洲湖可以處理數十億的pb級別的表分區和文件。
- 時間旅行(數據版本控製):創建快照的數據,允許您訪問和恢複到早期版本的數據審計,回滾或複製實驗。
- 開放格式在三角洲湖:所有數據都存儲在Apache拚花格式使三角洲湖利用高效的壓縮和編碼方案,原產於拚花。
- 統一的批處理和流源和下沉:一個表在三角洲湖是一批表,以及流源和下沉。流媒體數據攝取、批曆史回填和交互式查詢都是工作的。
- 模式執行:三角洲湖提供指定您的方案和執行的能力。這有助於確保所需的數據類型是正確的和列,從而防止錯誤數據導致數據損壞。
- 模式演化:大數據是不斷變化的。三角洲湖使您能夠更改一個表自動模式可以應用,不需要繁瑣的DDL。
- 100%兼容Apache火花API:開發人員可以使用三角洲湖與他們現有的數據管道用最小的變化與火花完全兼容,常用的大數據處理引擎。
問:你如何看待附近的三角洲湖表流和批筆記本的開始嗎?
如上所述的流與三角洲湖股票分析筆記本,在細胞8我們跑以下批處理查詢:
dfPrice = spark.read。格式(“δ”).load (deltaPricePath)顯示(dfPrice.where (dfPrice.ticker.isin ({“JO1”,“JN2”})))
請注意,我們運行這個查詢周期早些時候與數據直到8月20日,2012年。使用相同的文件夾路徑(deltaPricePath
),我們還創建了一個結構化流DataFrame通過下麵的代碼片段在細胞4:
#創建流和臨時查看價格dfPriceStream = spark.readStream。格式(“δ”).load (deltaPricePath)dfPriceStream.createOrReplaceTempView (“priceStream”)
我們可以運行以下SQL查詢實時的火花,不斷刷新。
%sql選擇*從priceStream在哪裏股票行情自動收錄器在(“JO1”,“JN2”)
注意到,盡管批量查詢執行(和結束在2012年8月20日)早些時候,結構化流查詢繼續處理數據長時間過去,日期(小藍點表示,2012年8月20日,在流線形圖表)。正如你所看到的從前麵的代碼片段中,批處理和結構化流DataFrames相同的文件夾路徑的查詢deltaPricePath
。
問:你的“錯誤”進入了數據,我可以回去尋找它並可能正確的審計嗎?
三角洲湖有一個數據版本控製功能時間旅行。它提供了快照的數據,允許您訪問和恢複到早期版本的數據審計,回滾或複製實驗。可視化,注意細胞36起流與三角洲湖股票分析筆記本。下麵的屏幕截圖顯示了三個不同的查詢使用版本的
語法允許您查看數據版本(或使用時間戳時間戳
語法)。
使用此功能,您可以知道修改你的數據了,當這些交易發生。
問:我看到股票流數據更新實現了通過一個視圖;我不知道更新可以在實際數據文件本身。例如,我們需要刷新整個分區鋪文件來實現更新?三角洲湖下的解決方案是什麼?
而變化是引發SQL視圖,這些變化實際上發生在底層存儲上的文件。三角洲湖本身決定了哪些檢查機關文件需要更新,以反映新的更改。
問:我們能查詢三角洲湖表Apache蜂巢
(截止目前版本0.1.0)不可能查詢三角洲湖表與Apache蜂巢蜂巢metastore也支持(盡管這個特性在路線圖)。最新的這個特殊的問題,請參閱GitHub的問題# 18。
問:有什麼指導,包括詳細的使用三角洲湖嗎?
三角洲湖上的最新指南,請參考delta.io以及三角洲湖文檔。加入三角洲湖社區與同伴交流三角洲湖通過我們的用戶和貢獻者鬆弛的通道或穀歌組。