Hadoop的遷移時的首要考慮
2021年7月22日 在數據策略
Apache Hadoop超過15年前成立作為一個開源的,分布式存儲和計算平台為大型數據集設計和大規模的批處理。Beplay体育安卓版本在早期,它是便宜的比傳統的數據存儲解決方案。當時,企業不需要在特定的硬件上運行它。的Hadoop生態係統也包含多個開放源代碼項目,它可以部署本地和雲端,但是它是複雜的。
但是15歲的技術並不是專為今天的工作負載。當它歸結到它,動物園的Hadoop是一個精心設計的係統技術。這是資源密集型和需要高技能的人來管理和經營環境。數據增長,需要更多的高級分析AI / ML,我們很少看到高級分析項目在Hadoop部署在生產。最後,它未能支持的基本麵分析。在以前的博客,我們探討了高的金融和運行Hadoop的資源稅;環境是固定的,服務操作24/7,環境大小的峰值處理,可以是昂貴的升級,是集中維護。組織需要專門的團隊保持燈,和係統的脆弱性影響他們的能力從所有的數據值。
有效地利用AI /毫升和所有數據的價值需要一個現代化的建築。這個博客將穿過如何做到這一點和頂部考慮當組織計劃遷移的Hadoop。
現代化的數據架構的重要性
一個企業級雲數據和現代人工智能體係結構提供了無縫的規模和高性能,齊頭並進的雲以具有成本效益的方式。性能作為標準常常被低估,但是執行時間越短,雲成本越低。
它還需要簡單的管理,以便數據團隊可以更加關注構建用例,不管理基礎設施。和架構需要提供一個可靠的方法來處理各種各樣的數據,使預測和實時分析用例驅動創新。進入磚Lakehouse平台Beplay体育安卓版本,從頭構建的雲支持\ AWS) \ \ Azure, \質量。管理協作環境,結合數據處理、分beplay娱乐ios析通過磚的SQL、先進的分析數據科學和機器學習等與實時流數據(ML)。這消除了需要縫合多個工具和擔心脫節的安全或移動數據——數據駐留在組織內的雲存儲三角洲湖。一切都在開放格式訪問開放源碼工具,使組織保持完全控製他們的數據和代碼。
規劃你的遷移Hadoop時的首要考慮
內部的問題
讓我們開始談論計劃遷移。有幾件事數據團隊、cio和債務抵押債券需要經曆,與任何旅程。最開始的問題,我現在在哪裏?我需要去哪裏?然後評估當前的基礎設施和計劃的構成新的世界。將會有很多新的知識和自我發現,發生在這一點。數據團隊將測試和驗證一些假設。最後,他們可以執行遷移本身。一組開始遷移前組織應該問的問題包括:
- 我們為什麼要遷移?不再有價值,你不是創新你的競爭對手一樣快,Hadoop的承諾不再存在。有一個昂貴的許可更新了最後一個特定版本的我們的生活Hadoop環境或硬件刷新在地平線上,首席信息官和首席財務官想要避免的。可能上述等等。
- 所需的開始和結束日期是什麼?
- 支持所需的內部利益相關者是誰?
- 誰需要參與每個階段?這將有助於地圖需要哪些資源。
- 最後,遷移如何融入整個雲策略?組織要AWS, Azure,還是質量?
遷移評估
組織必須先把庫存的所有移民項目。注意環境和各種工作負載,然後優先考慮用例需要遷移。而大爆炸的方法是可行的,一個更實際的方法將遷移項目對於大多數項目。此外,組織需要了解工作運行的代碼是什麼樣子。在大多數情況下,組織還必須建立一個商業理由遷移,包括現有的所有權的總成本計算和預測和成本數據磚本身。最後,組織將有一個更好的了解他們的遷移時間和與原計劃時間表完成遷移評估。
技術規劃階段
技術階段攜帶大量的重量在Hadoop遷移。在這裏,組織需要思考自己的目標架構並確保它將長期支持業務。一般的數據流將類似於已存在的東西。在許多情況下,過程包括舊技術映射到新的或者隻是和優化。組織還必須評估他們的數據移動到雲的工作負載。會有,或者更變革在磚利用新功能?或兩者的混合?其他因素包括數據治理和安全,和引進的自動化在可能的情況下,確保順利遷移,因為它可以不容易錯誤,並介紹了可重複的過程。這裏,還組織應該確保現有生產流程結轉到雲,綁定到現有的監視和操作。
評估和實施
要了解新平台提供,如何翻譯。Beplay体育安卓版本磚不是Hadoop,但是它提供了類似的功能更大的性能和規模的所有數據在數據處理和數據分析。也建議進行某種形式的評估,有針對性的演示,也許研討會,或共同計劃生產試點獸醫對環境的一種方法。
遷移執行
最後考慮的是執行遷移。遷移絕非易事。然而,完成它正確的第一次現代化計劃的成功是至關重要的,如何迅速組織終於可以開始規模分析實踐,降低成本和提高整體團隊的生產力數據。組織應該首先部署一個環境,然後遷移用例的用例,將整個數據,然後代碼。確保業務連續性,組織應考慮運行工作負載在Hadoop和磚。需要驗證,以確保在新環境中都是相同的。當事情很好,這個決定可以削減到磚和解除Hadoop的用例。組織將清洗和重複的所有剩餘的用例,直到他們都轉移,之後整個Hadoop環境可以退役。
遷移的Hadoop不是“如果”的問題,但“當”
大量的信用去Hadoop的創新推動的時候甚至幾年前的《盜夢空間》。然而,作為組織做更多的與他們的數據,使數據團隊做更多的分析和人工智能,和更少的基礎設施維護、數據管理、數據和人工智能的世界需要一個Hadoop的選擇。全球組織已經意識到,它不再是一種如果遷移需要保持競爭力和創新,而是一個時間的問題。組織等待的時間越長,發展他們的數據架構,以滿足日益增長的客戶需求和競爭壓力,他們背後的進一步下跌而導致增加成本。隨著現代化組織開始他們的旅程,他們需要一個循序漸進的方法,深入探索五因素在整個組織和豎井內不僅業務。了解更多關於磚遷移,訪問m.eheci.com/solutions/migration。