跳轉到主要內容
公司博客上

自動化和快速數據和雲湖ETL數據磚和StreamSets

2019年11月6日 公司博客上

分享這篇文章

得到一個O ' reilly的新電子書的早期預覽一步一步的指導你需要開始使用三角洲湖。


數據攝取湖是現代數據基礎設施的一個關鍵組成部分。但是企業經常遇到的挑戰時,需要使用這些數據分析和機器學習工作負載。整合來自不同來源的大量數據到數據湖是困難的,甚至更多的如果它從批處理和流媒體資源。大數據通常是無組織的和不一致的格式和數據類型的差異。這使得它難以更新數據在數據湖。查詢速度較低和缺乏實時訪問,結果是一個開發環境,不能保持同步。此外,它會導致缺乏數據質量和整體性能差的數據湖進一步推遲部署在生產環境中。

帶速度和敏捷性智能ETL攝取

組織能做些什麼來讓他們的數據湖泊更好的性能和有用嗎?上麵討論的挑戰可以減緩組織的雲分析/數據科學計劃顯著,特別是如果他們是有限的數據工程和科學專業人士。數據工程師把他們的時間浪費在特別概念證明沙箱而努力轉變數據投入生產。反過來,數據科學家缺乏信心數據分析和機器學習應用程序的使用。

磚和StreamSets合作加速雲分析的價值通過自動化攝取和數據轉換任務。聯合解決方案帶來快速雲數據處理管道設計和測試。StreamSets數據收集器和變壓器提供了一個拖放界麵設計、管理和測試數據雲數據處理管道。

在一起,這種夥伴關係帶來的力量磚和三角洲湖更廣泛的受眾。三角洲湖可以統一批處理和流來自異類數據源的數據在數據倉庫和分析速度。它支持事務插入,刪除,插入和查詢。它提供酸合規,這意味著任何寫總是完整的和失敗的工作完全退出。

集成提供了幾個關鍵的好處:

  • 更快地遷移到雲數據工程資源開銷較少
  • 容易把來自多個不同數據源的數據使用拖掉接口
  • 更好的管理數據的質量和性能對於雲數據與三角洲湖湖泊
  • 變化數據捕獲(CDC)能力從幾個數據源三角洲湖
  • 減少中斷的風險與更快的時效性,在on-prem Hadoop遷移到雲計劃
  • 連續監測數據管道降低支持成本和優化ETL管道

磚建築StreamSets

使用視覺管道開發湖成三角洲攝取數據

使用視覺管道開發湖成三角洲攝取數據

數據團隊花了大量的時間在他們當前的數據架構建立ETL作業,而且具有代碼密集型。這經常往往是複雜的,例如,組織可能想知道實時使用在生產運行曆史報告分析使用趨勢隨時間而不被複雜的ETL處理慢了下來。克服混亂的數據問題,腐敗數據和其他挑戰需要驗證和再加工,可以采取小時如果不是天。流媒體數據的查詢性能進一步可能慢一些。

磚的集成和StreamSets解決了這個通過允許用戶設計、測試和監控批處理和流ETL管道不需要編碼或專業技能。的拖放界麵StreamSets很容易攝取來自多個數據源的數據到三角洲湖。執行引擎-StreamSets變壓器,用戶可以創建執行數據處理管道Apache火花。變壓器產生原生火花磚集群上執行的應用程序。

下麵是多麼簡單的一個例子是創建一個三角洲攝取管道Streamsets,卡夫卡是源和δ是目的地。

有一個本地三角洲湖目的地在變壓器,這是非常容易配置。隻需指定位置的增量數據集,這可能是一個DBFS山、和數據從卡夫卡(或任何其他來源由變壓器)流入目的地三角洲表。

多麼簡單的一個例子是創建一個三角洲湖攝取管道StreamSets,卡夫卡是源和δ是目的地

變壓器也可以三角洲表上執行轉換,視覺表達但火花代碼在運行時轉換和下推火花工作磚集群,所以共同客戶可以享受beplay体育app下载地址到規模、可靠性和靈活性的一個完整的數據管理工程和人工智能平台的點擊幾個按鈕。Beplay体育安卓版本

下麵是一個例子,一個轉換管道在源和目標都是三角洲湖表,而中間步驟轉換源表上做。

轉換的一個例子管道在源和目的地都是三角洲湖表,而中間步驟轉換的源表

變壓器與磚通過簡單的REST api。的上傳的代碼和運行協調工作磚通過這些安全api。

變壓器中的一個簡單的配置對話管道允許客戶將變壓器連接到他們的數據磚環境。注意變壓器既支持交互式的和數據工程集群數據磚,給客戶靈活地選擇正確的集群類型正確的用例。beplay体育app下载地址

變壓器中的一個簡單的配置對話管道允許客戶將變壓器連接到他們的數據磚環境

監控三角洲湖管道也是集成的關鍵能力,因為它給顧客一種視覺窗口的健康和地位如何攝入轉換工作或管道。beplay体育app下载地址例如,下麵的截圖描述了從關係源記錄與卡夫卡流入三角洲表,它可以監測吞吐量或記錄計數。

從關係來源與卡夫卡的流動記錄到三角洲湖表中

變化數據捕獲(CDC)三角洲湖的合並

數據等湖泊三角洲湖把起源來自多個數據源的數據結合成一個整體分析的中心位置。如果源起源數據源中的數據發生變化時,就必須以反映這一變化在三角洲湖數據仍然是新鮮的和準確的。同樣重要的是,需要管理,最終改變可靠所以最終用戶不做分析部分攝取或髒數據。

變化數據捕獲(CDC)就是這樣一種技術來調和源係統和目標係統的變化。StreamSets開箱即用的CDC能力流行關係數據源(比如mysql、postgres和更多),這使得它可以捕獲這些數據庫的變化。在許多情況下,StreamSets關係係統的讀取二進製日誌捕捉變化,這意味著源數據庫不經曆任何性能或從中心管道負載的影響。

Streamsets實現了達美航空的合並功能這使得它可以協調中心來源的變化δ表和一個簡單的視覺自動管道,因此簡化疾控中心管道從源係統為客戶三角洲湖。beplay体育app下载地址

功能可以協調中心來源的變化δ表和一個簡單的視覺自動管道。

因為StreamSets使用三角洲實施CDC管道,客戶得到的好處事務性語義和性能的三角洲湖中心攝取過程,保證新鮮的可靠的數beplay体育app下载地址據可用的湖,在一個格式,對下遊的優化分析。

如何開始使用磚和StreamSets新攝取的解決方案嗎

我們興奮集成和加速的潛力分析和ML項目在雲中。為了了解更多,注冊管理雲中的大數據管道網絡研討會。我們將展示的現場演示是多麼容易構建大容量數據管道移動數據到三角洲湖。

相關資源

免費試著磚
看到所有公司博客上的帖子
Baidu
map