跳轉到主要內容
Beplay体育安卓版本平台的博客

構建可伸縮的實時應用程序Lakehouse使用支流和磚,第2部分

看到它來生活在一個端到端的金融服務預測分析用例
分享這篇文章

這是一個協作的支流和beplay娱乐ios磚之間。我們感謝保羅Earsy人員彙合的解決方案工程師,他們的貢獻。


在這個博客我們會突顯出簡化的經驗使用支流的全麵管理下沉連接器AWS磚。這個完整的連接器是專門為磚Lakehouse和提供了一個強大的解決方案構建和規模實時應用程序如應用程序監控、物聯網(物聯網),欺詐檢測、個性化和遊戲排行榜。組織可以使用一個集成的功能流彙合的遺產和雲數據平台直接進入磚Lakehouse數據科學、數據分析、機器學習和商業智能(BI)用例在單一平台。Beplay体育安卓版本直接攝取到磚Lakehouse,特別是三角洲湖與融合性的可用的產品,這提供了一種重要的易用性優勢相對於其他數據流選擇像AWS運動或AWS為卡夫卡(MSK)管理服務。

當我們在我們最後的感動博客:融合性的流媒體數據磚:Lakehouse構建可伸縮的實時應用程序雲直接進入,通過融合性的流數據磚三角洲湖大大減少了手工編寫代碼的複雜性,構建定製的實時流管道和舉辦開放源碼Apache卡夫卡,節省數百小時的工程資源。一旦在三角洲湖流數據,你可以用批處理數據統一集成數據管道建設任務關鍵型應用程序。湖泊三角洲湖提供了更大的可靠性比傳統數據的事務管理和模式執行的能力。

有三個核心用例與支流使磚三角洲湖的支流彙連接器雲:

  1. 流本地和multicloud數據雲分析:利用Apache卡夫卡和彙合的足跡跨越on-prem和雲,彙合的能流的分布式數據到三角洲湖,在磚提供管理實時應用程序的速度和規模生產。
  2. 流數據分析師和業務用戶使用SQL分析:使用支流和磚,組織可以準備,加入,豐富和查詢流數據集磚的SQL執行快得多流數據分析。數據分析的快得多,因為現在lakehouse可用的數據。
  3. 使用流數據與ML模型預測分析:磚的協作beplay娱乐ios機器學習解決方案是建立在三角洲湖所以你可以捕捉g的流源數據直接從支流雲到三角洲表中創建毫升模型,在這些模型實時查詢和協作。

磚和融合性的組合在一起形成了一個強大的和完整的數據解決方案專注於幫助公司使他們的遺留數據基礎設施現代化和經營規模。支流和磚,開發人員可以創建實時的應用程序,使microservices,並利用多個數據源驅動更好的業務成果。

如何通過簡化水槽連接器加速數據遷移數據攝入

磚三角洲湖沉連接器彙合的雲不需要定製的集成的開發和管理,從而降低了整體的運營負擔之間的連接數據彙合的雲和湖三角洲磚。磚三角洲湖是一個開放的格式存儲層提供了可靠性、安全性和性能數據湖泊流和批處理操作。通過替換單個回家結構化數據豎井,半結構化、非結構化數據,三角洲湖是一個具有成本效益的基礎,高度可伸縮lakehouse。

例如,企業可以把數據從本地數據倉庫(e。g甲骨文,Teradata, Microsoft SQL Server, MySQL和其他)和數以百計的流行係統(應用程序、SaaS應用程序日誌流,事件流,和其他人)彙合的雲,預處理和預備在ksqlDB流媒體數據,並將其發送到磚三角洲湖沉連接器使用完全管理。

易於配置的經驗與編寫自定義代碼

如果你構建一個定製的實時數據提取和攝取管道,這將涉及大量的開發資源。他們需要實現這些定製的管道,然後維護和實施它們。這些定製管道也會脆弱由於複雜性參與數據提取各個源係統支持的api, api的限製和頻繁的api的變化。使用low-code,配置,管理數據提取和攝取管道可以幫助提供一個低成本、可擴展的和可維護的解決方案。這也可以使開發人員資源專注於項目,提供更高的商業價值。

彙合的磚水槽的連接器提供了一個沒有代碼,基於配置的方法,簡化了數據提取和攝取管道。這個流和截圖顯示你是多麼容易開始連接彙合的磚。

開始使用這個連接器

  • 彙合的雲用戶界麵,導航到集群概述頁麵。然後選擇數據集成- >連接器。然後添加一個全麵管理連接器和選擇磚三角洲湖下沉的連接器。

第一步連接彙合的磚。

然後開始配置連接器

  • 在下一個屏幕上,選擇您想要的卡夫卡主題的數據,輸入消息的格式和卡夫卡集群憑證。提供詳細的信息連接到SQL端點或磚磚集群。提供卡夫卡主題磚δ表映射。提供自己的分段位置的細節,臨時數據在哪裏舉行前攝取到三角洲。

配置彙合的雲沉連接器的磚。

並最終部署連接器

  • 單擊Next以審查連接器的詳細信息,並單擊啟動開始。在“連接器”頁麵,新的連接器讀取“供應”的狀態,然後更改“運行。“現在連接器將數據複製到磚三角洲。水槽連接器還創建了表在磚上,如果他們不存在。

使一個用例為欺詐檢測在預測分析

在演示場景中,我們將看到如何磚和支流使金融機構預測分析檢測欺詐行為。在這個金融機構,增加欺詐性交易已經開始影響業務的增長,他們想利用預測分析,以減少欺詐行為。

像Oracle這樣的假設他們使用一個數據庫(或任何其他數據庫)來存儲與業務相關的事務。他們實現了Salesforce CRM的管理所有數據,因此維護所有客戶帳戶和聯係在Salesforce數據。他們也用很多其他的客戶和產品數據的數據庫和應用程序。

數據科學團隊希望利用現有客戶數據和應用最新的機器學習和預測分析與實時金融交易客戶數據。然而,有三個挑戰:

  • dba可能不想讓數據科學團隊直接和頻繁查詢Oracle數據庫中的表由於增加數據庫服務器上的負載和潛在幹擾現有事務活動
  • 如果團隊是一個靜態的數據副本,他們需要保持副本在近乎實時的更新
  • 各數據源與數據孤立係統,數據科學團隊有一個支離破碎的方法來訪問和消費客戶和產品數據。因此中央數據存儲庫,如三角洲湖、方便工作與策劃/標準/黃金數據

彙合的甲骨文CDC源連接器可以持續監測原始數據庫和在雲中創建一個事件流滿所有的原始數據的快照和所有的後續更改數據庫中的數據,當他們出現在相同的順序。磚三角洲湖下沉的連接器可以連續使用事件流和應用這些更改磚三角洲。水槽連接器設計與磚SQL的有效工作。

這個連接器有助於簡化架構和實現提取來自各種數據源的數據流數據和消化到磚Lakehouse平台。Beplay体育安卓版本

下麵是這個用例的高級體係結構。

高層Confluent-Databricks架構提取和消化磚Lakehouse來自不同數據源的數據。

流原始數據現在可以當δ表。原始數據現在可以清洗和準備支持欺詐分析用例。

三角洲生活表然後幫助構建可靠的,可維護的,完全管理數據處理管道,幫助把原始數據和經過大獎章架構(即。質量,改善結構和數據流從青銅- >銀- >金)。黃金現在隨時可用的數據科學家致力於構建機器學習(ML)模型預測欺詐性交易。

磚有工具,例如,δ生活表,構建到平台幫助建立可靠的、可維護的、完全管理數據處理管道。Beplay体育安卓版本

磚AutoML幫助創建基線機器學習(ML)模型和筆記本。這使得數據科學家審查、選擇、部署和實施最好的ML模式。端到端使用mlflow毫升模型生命周期也完全管理。這包括運行/跟蹤實驗中,使用模型注冊中心來管理模型生命周期,將其部署到生產環境模型和模型。
這有助於簡化端到端解決方案的實現實時預測欺詐。

使用磚SQL,商業智能(BI)分析師可以查詢數據並構建儀表盤。優化連接器等磚SQL提供領先的商業智能工具的畫麵,PowerBI,美人,和其他允許一個創建BI儀表板。

讓我們回顧支流+磚如何幫助支持這一預測欺詐分析用例的金融機構。

  • 彙合的雲沉連接器的磚簡化了流數據到數據磚Lakehouse的攝取
  • 三角洲生活表幫助簡化數據工程通過允許分析師使用SQL構建管理的數據管道
  • 磚AutoML幫助簡化創建和實施機器學習模型
  • 磚SQL幫助使數據分析師和BI用戶探索數據並創建儀表板

結論

與支流和磚,組織可以創建實時應用程序,使microservices,並使所有數據的分析,導致更好的數據驅動的決策和業務成果。在一起,形成一個強大的和完整的數據解決方案專注於幫助公司運作大型實時。

開始使用磚和彙合的雲

開始使用連接器,您將需要訪問數據磚和彙合的雲。檢查磚水槽連接器彙合的雲文檔並把它旋轉磚免費注冊一個14天的審判。也看看免費試用彙合的雲

看看以前的博客”融合性的流媒體數據磚:Lakehouse構建可伸縮的實時應用程序

免費試著磚

相關的帖子

看到所有Beplay体育安卓版本平台的博客的帖子
Baidu
map