7理由從基於雲的Hadoop遷移到磚Lakehouse平台Beplay体育安卓版本
2022年6月9日 在Beplay体育安卓版本平台的博客
在過去的幾年中,許多企業遺留on-prem Hadoop工作負載遷移到雲托管服務,比如EMR, HDInsight或DataProc。然而,客戶已經開始beplay体育app下载地址認識到麵臨相同的挑戰在他們on-prem Hadoop環境(如可靠性和可伸縮性)繼承進入Hadoop他們現有的雲計算平台。Beplay体育安卓版本他們觀察到任何集群啟動需要很長時間來提供,甚至更多的時間自動定量高峰時段。結果,他們保持長時間運行,獲得集群管理工作負載需求。大量的時間花在故障診斷、基礎設施、資源管理開銷和縫合不同的管理服務在雲上維持一個端到端管道。
最後,這將導致資源浪費,使安全性和治理和升級的不必要的成本。beplay体育app下载地址客戶最終希望自己的團隊能夠集中精力解決業務數據的挑戰,而不是故障排除繼承了Hadoop平台問題。Beplay体育安卓版本
在這個博客中,我們將討論價值觀和從一個Hadoop雲平台遷移到的好處Beplay体育安卓版本磚Lakehouse的平台。Beplay体育安卓版本
這裏有一些明顯的好處和理由考慮從那些Hadoop雲服務遷移到磚。
- 簡化你的架構與Lakehouse平台Beplay体育安卓版本
- 集中的數據治理和安全
- 一流的所有數據的工作負載的性能
- 提高生產力和業務價值
- 推動創新與數據和人工智能
- 雲不可知的平台Beplay体育安卓版本
- 磚的合作夥伴生態係統的好處
讓我們更詳細地討論和了解這些7的原因。
1)簡化你的架構與Lakehouse平台Beplay体育安卓版本
的磚Lakehouse平台Beplay体育安卓版本結合了最佳元素湖泊和數據倉庫提供的數據可靠性、治理和性能數據倉庫的開放性、靈活性和機器學習的數據支持湖泊。
通常,Hadoop雲平台是用於特定用例像數據工程,需Beplay体育安卓版本要增強與其他服務和產品流,BI和數據科學的用例。這導致一個複雜的架構,創建數據倉庫和孤立的團隊,帶來安全與治理的挑戰。
Lakehouse平台提供了Beplay体育安卓版本一個統一的方法簡化了你的數據堆棧通過消除這些複雜性。
2)集中的數據治理和安全
磚帶來的細粒度的治理和安全lakehouse數據統一目錄。統一目錄允許組織管理細粒度數據權限使用標準ANSI SQL或一個簡單的UI,使他們解鎖lakehouse消費安全。它統一在雲層和數據類型。
統一目錄不僅僅隻是管理表和其他數據資產,如機器學習模型和文件。因此,企業可以簡化他們如何管理所有數據和艾城的資產。這是一個關鍵的建築企業宗旨和客戶遷移到磚的關鍵原因之一而不是使用一個基於雲的Hadoop的平台。beplay体育app下载地址Beplay体育安卓版本
在高級別上,統一目錄提供了以下主要功能:
- 集中的元數據和用戶管理
- 集中式數據訪問控製
- 數據沿襲
- 數據訪問審計
- 數據搜索和發現
- 安全數據共享與δ共享
除了統一目錄,磚等功能表訪問控製(TACLs),我的角色憑據透傳這使您能夠滿足您的數據治理需求。更多細節,請訪問數據治理的文檔。
此外,與三角洲湖,您會自動獲得的好處執法和模式演化模式開箱即用的支持。
使用三角洲分享,您可以安全地共享數據實時跨組織,獨立的平台數據駐留的地方。Beplay体育安卓版本這是本地集成到磚Lakehouse平台,這樣你就可以集中發現、管理和管理你所有的共享數據在一個平台上。Beplay体育安卓版本
3)一流的所有數據的工作負載的性能
beplay体育app下载地址客戶可以通過遷移到磚的最佳性能光子引擎,它提供了高速查詢性能以較低的成本為所有類型的工作負載直接lakehouse的頂部。
- 與光子,大多數分析工作負載能夠滿足或超過數據倉庫性能不移動數據到數據倉庫。
- 光子與Apache火花™api和SQL兼容,所以開始一樣容易把它。
- 用c++寫的,光子利用現代硬件對於更快的查詢,提供更好的價格/性能比其他雲數據倉庫。有關詳細信息,請訪問博客data-warehousing-performance-record
除此之外,磚增強自動定量集群資源通過自動分配優化集群利用基於工作負載體積,以最小的對管道的數據處理延遲的影響。集群規模與Hadoop雲計算平台是一個重要的問題,在某些情況下,需要30分鍾自動定量。Beplay体育安卓版本
由於磚的性能優越Hadoop雲平台相比,總體所有權的總成本大大降低。Beplay体育安卓版本beplay体育app下载地址客戶意識到降低基礎設施花費,同時更好的價格/性能。
4)增加生產力和業務價值
beplay体育app下载地址客戶可以更快,更好地進行協作和操作時更有效地遷移到磚。
- 磚消除了技術壁壘的限製之間的協作分析師、數據科學家,工程師和數據,使數據團隊更有效地一起工作。beplay体育app下载地址客戶看到更高的生產率數據科學家,工程師和sql數據分析師消除人工開銷。
- 磚的客戶明顯加速了價值,beplay体育app下载地址和增加收入,通過使數據工程,數據科學和BI團隊建立端到端管道。另一方麵,他們意識到這是不可能實現相同的使用Hadoop雲平台,多個服務必須縫合交付所需的數據產品。Beplay体育安卓版本
提高生產率,磚幫助解鎖新的業務用例,加速和擴大價值從麵向業務用例實現。
最近Forrester研究報告題為總的經濟影響™(TEI)磚統一數據分析平台Beplay体育安卓版本發現組織部署磚實現近2900萬美元的總經濟效益和一個投資回報率為417%在三年的時間。他們還得出結論,磚平台支付本身在不到六個月。Beplay体育安卓版本
5)推動創新與數據和人工智能
磚是一個全麵的、統一的平台,滿足所有角色交付業務價值的關鍵數據,如數據工程師,Beplay体育安卓版本數據科學家&毫升工程師,以及SQL和BI分析師。數據團隊的任何成員可以快速構建一個端到端的數據管道,從數據攝入、內容管理、工程特點、模型訓練和驗證數據磚內部署。最重要的是,數據處理可以互換實現批處理和流媒體,利用Lakehouse架構。
與雲計算平台Hadoop,磚不斷努力創新,為用戶提供Beplay体育安卓版本一個現代數據平台的經驗。這裏有一些明顯的平台的特性給任何人使用磚:Beplay体育安卓版本
Lakehouse互操作使用δ在任何雲存儲
三角洲湖是一個開放的格式存儲層提供了可靠性、安全性和性能數據湖——流和批處理操作。代替數據倉庫與單個回家結構化、半結構化和非結構化數據,三角洲湖是一個具有成本效益的基礎,高度可伸縮的lakehouse。相比其他的開放格式存儲層像冰山和Hudi三角洲湖是最Lakehouse架構性能和廣泛使用的格式。
ETL開發使用三角洲生活表
三角洲生活表(DLT)是第一個ETL框架,使用一個簡單的聲明性方法構建可靠的數據管道和自動管理基礎設施規模,以便數據分析師和工程師可以花更少的時間在工具和專注於從數據獲得價值。與DLT,工程師們能夠把他們的數據就像代碼和應用現代軟件工程最佳實踐測試,錯誤處理,監測和文檔大規模部署可靠的管道。
簡單和自動數據攝入自動加載程序
最常見的一個挑戰就是攝取從雲存儲和處理數據Lakehouse始終並自動。磚自動加載程序簡化了比例攝入過程的數據自動從雲存儲數據加載流或批處理模式。
把你的數據倉庫使用磚的SQL
磚SQL SQL (DB)允許客戶經營多重雲湖lakehousbeplay体育app下载地址e架構在他們的數據,並提供12 x更好的價格/性能比傳統的雲數據倉庫,開源大數據框架,或分布式查詢引擎。
管理機器學習的完整生命周期MLflow
MLflow磚開發的一個開源平台,幫助管理完整Beplay体育安卓版本的機器學習與企業生命周期的可靠性、安全性和規模。立刻意識到好處之一能夠執行實驗跟蹤、模型管理和模型輕鬆部署。
自動化機器學習生命周期AutoML
磚AutoML允許您快速生成基線的機器學習模型和筆記本。毫升專家可以加速工作流通過快進一般的試錯和專注於定製使用他們的領域知識,和公民數據科學家可以快速實現low-code方法有用的結果。
建立你的特色商店在Lakehouse
磚提供數據團隊有能力創建的新特性,探索和重用現有的低延遲網店發布功能,建立訓練數據集和檢索特征值批推理使用磚特性存儲。這是一個集中的存儲庫的功能。它使功能分享和發現在您的組織,也確保了相同的特性計算代碼用於培訓和推理模型。
可靠的編排與工作流
磚工作流是全麵管理編製服務對於你所有的數據,分析,和人工智能的需要。您可以創建和運行可靠的生產工作負載在任何雲,為終端用戶提供深度和集中監控與簡單。工作流允許用戶構建ETL管道自動管理,包括攝入,和血統,使用三角洲住表。你也可以安排筆記本的任意組合,SQL,火花,毫升模型,和印度生物技術部工作流程,包括調用其他係統。
6)雲平台不可知Beplay体育安卓版本
一個多重雲戰略已經成為必不可少的組織需要一個開放的平台統一數據分析,從攝入,BI和人工智能。Beplay体育安卓版本
- 與多個雲中的數據,組織不能受製於一個雲的本地服務,因為現在他們的存在取決於數據駐留在自己的雲存儲。
- 組織需要一個多重雲平台,提供可見性、控製、安全性和治理以一致的方式Beplay体育安卓版本對所有他們的團隊無論雲他們使用。
- 磚Lakehouse平台授權客戶利用多個雲通過一個Beplay体育安卓版本統一的數據平台,使用開放標準。beplay体育app下载地址
cloud-agnostic平台,磚的工Beplay体育安卓版本作負載運行同樣在任何雲平台,利用現有的數據湖在每個雲存儲。作為一個用戶,將工作負載遷移到磚後,您可以使用相同的開源代碼在任何雲互換。它減輕了風險鎖定你的原生雲Hadoop平台。Beplay体育安卓版本
7)磚的合作夥伴生態係統的好處
磚是現代數據棧的一個組成部分,使數字原生代和企業快速動員數據資產更明智的決定。它有一個豐富的合作夥伴生態係統(超過450全球合作夥伴),允許這個發生無縫數據旅程的各個階段,從數據攝入,構建數據管道、數據治理、數據科學和機器學習BI /儀表盤。
在磚,合作夥伴聯係與流行的數據平台允許您集成lakehouse像印度生物技術部,Fivetran,畫麵,Labelbox等和設置它在Beplay体育安卓版本幾次點擊預構建的集成。
與Hadoop雲平台,磚,你可以建立你的端到端管道隻Beplay体育安卓版本需要點擊幾下,迅速擴大lakehouse的能力。找到更多關於數據磚技術合作夥伴,訪問www.m.eheci.com/technology。
下一個步驟
從一個平台遷移到另一個不是一個容易的決Beplay体育安卓版本定。它涉及到
評估當前的架構,回顧的挑戰和難點,和驗證新平台的適用性和可持續性。Beplay体育安卓版本然而,組織總是希望做更多的數據保持競爭力並賦予他們的數據與創新的技術團隊做更多的分析和人工智能,同時減少基礎設施的維護和管理負擔。附近實現這些目標和長期目標,客戶需要一個解決方案,它超越了遺留on-prem或Hadobeplay体育app下载地址op雲計算解決方案。探索每一個7的原因在這個博客,看看這些能給您的業務帶來價值。