跳轉到主要內容
公司博客上

如何評估數據管道成本性能

2020年11月13日 公司博客上

分享這篇文章
學習的最佳實踐設計和評估cost-to-performance基準從德國的# 1天氣門戶。

當然我們幾個基準,我們知道最好的基準是查詢運行在您的數據。但是你在評估基準對是什麼?答案似乎很明顯——成本和你的雲架構和集成路線圖。

然而,我們發現,許多企業隻是測量單個服務的成本在一個工作流,而不是整個工作流的成本。當比較不同的體係結構、運行一個完整的工作流將演示的總資源消耗(數據引擎+計算+輔助支持功能)。


不知道時間,工作每個建築的失敗率,和手動力氣就能支持工作,比較各個組件的列表價格兩個架構將會誤導人的。

wetter.com的案例研究

# 1的德國天氣門戶METEONOMICS向磚求助與優化數據管道,最終提高整個工作流cost-to-performance比率。

wetter.com達奇地區的# 1 B2C天氣門戶與2000萬每月獨立用戶和全跨媒體生產。利用其數據並從中盈利,wetter.com創建了一個名為METEONOMIQS的新業務單元。METEONOMIQS,公司現在可以產生新的收入來源的數據通過開發和銷售產品數據業務的客戶。beplay体育app下载地址METEONOMIQS提供天氣和地區科學數據服務解碼天氣之間的相互關係,消費者行為和許多其他因素所使用的客戶零售、快速消費品、電子商務、旅遊、食品和廣告。

METEONOMIQS的挑戰


METEONOMIQS選擇亞馬遜EMR處理數據從原始攝入到潔淨和聚合為下遊服務API的用戶。最初EMR是顯而易見的選擇作為一個一流的雲計算引發引擎,適合他們的AWS堆棧。

然而,這種架構很快達到極限。大量的手工工作所需的數據管道更新行和清潔表,需要高DevOps努力維護,和有限的潛在使用毫升由於延長開發周期。窮人筆記本的經驗和風險的錯誤當移交毫升模型從DS DE更難支持多個模型。

然而業務最大的風險是無法實現自動GDPR-compliant工作流,例如,很容易刪除個人客戶。beplay体育app下载地址相反METEONOMIQS必須手動清理數據,導致天的停機時間。與GDPR懲罰達到4%的母公司全球收入,這對母公司ProSiebenSat.1呈現一個巨大的風險。

高層體係結構和所使用的技術堆棧METEONOMIQS之前使用磚。

構建測試

METEONOMIQS轉向磚,看看是否有更好的方法來架構師數據攝取、處理和管理Amazon S3。處理數據磚時,他們建立了一個測試,看看運行這個管道磚相比而言:

矢量分析 功能要求
設置
  • 由用戶設置IAM-access角色的能力
  • 能夠融入現有的AWS膠作為metastore數據目錄
管道遷移
  • 代碼從現有管道直接遷移到磚的能力沒有主要的再造。注意:他們沒有解決在這個測試代碼優化
GDPR合規
  • 能力構建一個表(測試)客戶可以刪除/ app-ids滿足GDPR需求被遺忘(右)。
  • 設置自動刪除工作的能力從中間和刪除IDs results-tables並驗證結果
清理/更新
  • 能力重建之前更新/重整過程的一個例子。
  • 建立一個清理過程基於上麵的例子和做一個更新記錄的影響
易用性
  • 緩解databricks-notebooks內的建築可視化通過使用內置的功能和外部策劃庫(如matplotlib)。
  • 工作能力在多個項目/流通過附加兩個筆記本一個集群
毫升模型管理
  • 選擇一個已存在的模型從當前環境和培養過程的代碼遷移到磚
  • 進行訓練(s)和使用MLFlow跟蹤服務器來跟蹤所有參數,指標和工件
  • 可選:將工件存儲在當前使用的專用格式
  • 注冊(最好)模型MLflow模型中的注冊表,設置成“生產”狀態和演示的審批過程
  • 演示交接數據域(建模)係統的接觸域模型(模型生產)通過MLflow注冊表
總成本
  • 使用生成的PoC和額外的數據信息(進一步管道/數據/用戶數量的大小/…)項目基礎設施成本,包括磚、計算和存儲。

高層體係結構和所使用的技術堆棧METEONOMIQS,現在磚。

基準測試結果

數據糾正/改進沒有停機時間

矢量分析 EMR-based架構 Databricks-based架構
設置
管道遷移 - - - - - -
GDPR合規

GDPR刪除小時/天的停機時間

GDPR刪除在幾分鍾內沒有停機時間

清理/更新

需要幾天的時間

易用性
毫升模型管理

改進數據科學家和工程師/ Dev團隊之間的協作

總成本 EMR成本的80%來自專門的開發和分析集群導致不可預測的計算成本。

DataOps要求大量開發資源維護。

通過集群共享,METEONOMIQS可以使用雲資源更有效

但更重要的是,他們現在可以做新的用例,如自動化GDPR合規和規模毫升之前不可能的方式。

對於METEONOMIQS磚建築的主要收益是:

  1. 添加用例(例如,自動數據修正和改進),沒有被部署在EMR由於高水平的開發成本
  2. 大大降低管道所需的手動維護
  3. 簡化和自動化GDPR合規的管道,以便它可以在幾分鍾內完成沒有停機時間和停機之前相比,小時/天

此外,團隊有很高的AWS資源消耗在EMR架構自EMR共享環境中是不可能的。由於團隊成員必須使用專用集群。磚的共享環境的所有開發人員+工作能力(即在共享項目。、筆記本),導致一個更有效的使用人力和基礎設施資源。

毫升模型數據科學家的數據移交工程團隊是複雜和ML的代碼導致分道揚鑣。與MLflow團隊現在有一個舒適的方式交出模型和跟蹤會隨著時間而改變。

進一步,磚筆記本電腦更容易使用,METEONOMIQS湖可以使數據訪問更廣泛的觀眾喜歡,例如,移動應用團隊。

作為他們的下一個步驟之一,METEONOMIQS會進一步優化他們的代碼基礎設施儲蓄和性能以及看看其他管道磚建築的過渡。

外賣

團隊的成功的關鍵基準依賴

  1. 知道他們測量:通常客戶隻會比較價格列表的個人服務(例如,比較一個火花引擎和另一個)的成本在評估不同的體係結構。我們盡量建議客戶不要看單個服務而是工作總成本(數據引擎+計算+團隊的生產力)交付業務價值。在這種情況下,wetter.com的數據工程團隊一致的測試與總體業務目標——確保他們的數據管道可以支持業務和管理需求,同時減少基礎設施,開發人員開銷。
  2. 選擇關鍵工作負載:而不是試圖遷移所有管道,球隊縮小範圍最緊迫的業務案例。通過這個項目他們能夠驗證磚可以處理數據工程,機器學習,甚至大規模基本業務分析,預算,及時。
  3. 快速交付價值:這支球隊的關鍵是要從討論poc生產盡快開始駕駛成本節約。討論延伸個月或更長時間不是一個選擇也沒有充分利用他們的團隊的時間。處理數據磚時,他們能夠站起來第一基準poc在不到三個星期。

準備好運行你自己的評價?

如果你想運行自己的測試比較成本和性能不同的雲數據管道,我們寫信(電子郵件保護)。我們可以提供一個自定義的評估基於你的完整的工作流程和幫助你有資格獲得任何可用的促銷活動。包括在評估:

  • 技術驗證:理解數據源,目前下遊數據使用和資源才能運行管道的工作
  • 業務價值分析:確定公司的戰略重點,了解技術用例(例如,ETL)驅動器業務用例(例如,個性化,供應鏈效率、質量的經驗)。這樣可以確保我們的情景應用程序是設計一個解決方案,不僅適合今天的需要你的業務的持續發展。

下麵是我們的一般方法基於的大綱設計和評估你的基準測試的最佳實踐的數據管道。

設計測試

給定數據管道在同一個企業可以相差很大取決於數據的來源和結束使用,大型企業可以有成千上萬的數據管道跨越供應鏈、營銷、產品、和操作——你如何測試一個架構,以確保它能在一係列場景,終端用戶的角色,和用例?更重要的是,你怎麼能做到在有限的時間內?你想要的是能夠從測試,驗證,在盡可能多的管道伸縮盡快降低成本以及支持你的數據工程師的負擔。

一種方法我們已經看到是選擇管道的建築代表一個企業的大部分管道。雖然這是一個很好的考慮,我們發現選擇管道主要基於體係結構方麵的考慮並不一定導致最大的總體影響。例如,最常見的數據管道架構可能是較小的管道,不一定駕駛你的基礎設施成本或要求最故障診斷數據的支持工程師。

相反,我們建議客戶限製他們的基準測試的範圍3 - 5數據管道基於兩個考慮:

  • 測試第一個業務關鍵數據的工作量:通常第一個反射是一開始不那麼重要的工作負載,然後向上移動堆棧架構證明自己。然而,我們建議在戰略運行測試,關鍵業務管道因為最好早知道如果一個架構可以實現必要的業務sla。一旦你證明你可以兌現的重要工作,然後它變得更容易更少的關鍵管道轉移到一個新的體係結構。但反過來(從少更關鍵的關鍵)將需要驗證兩次——第一次在初始測試然後再一次重要的工作負載。
  • 基於主要選擇管道壓力影響性能:是什麼導致交貨期長,延誤工作,或工作失誤?在選擇測試管道,確保你知道壓力是你當前的架構,並選擇代表管道產生拖延,倒閉率高和/或需要持續的支持從數據工程團隊。舉個例子,如果你是一個製造商試圖讓您的供應鏈的實時視圖,從零部件供應商組裝到航運,但是你的物聯網管道需要數小時批量處理大量的小文件,這是一個理想的測試候選人。

評估結果

一旦你選定的數據管道測試、評價的關鍵指標是:

  1. 總成本運行工作:運行所需的總資源是什麼工作?這意味著不僅僅是看數據引擎攝取和處理的成本,但也總計算和支持成本函數(如數據驗證)完成數據查詢。此外,管道的失敗率是什麼?頻繁的工作失敗意味著後處理數據幾次,顯著增加基礎設施成本。
  2. 運行工作的時間:需要多長時間來運行工作一旦你添加集群自旋向上和數據處理的時間需要識別和糾正任何工作失誤?這一時期的時間越長,基礎設施成本也越高,時間越長需要為您的數據驅動真正的商業價值/見解。企業依靠數據來做出重要業務決策和剛性管道周期長的阻止企業快速迭代。
  3. 生產力:多長時間你工作失敗,需要多長時間你的數據工程師通過日誌來找到問題的根源,進行故障排除,並解決?這損失的生產力是一個真正的成本的增加人數+你的機會成本數據工程師專注於基本數據可靠性的問題而不是解決更高級別的業務問題。即使你的工作正確運行,你的下遊用戶使用最新的信息?他們是被迫刪除處理和清潔數據之前使用報告,分析和數據科學?特別是流媒體數據,您可以在無序的文件,你怎麼能保證你有一致的數據在用戶?
  4. 可擴展性:添加新的用例或數據源需要全麵再造你的數據管道,或你有一個模式進化與數據需求?

此外,作為未來企業尋求創建一個更證明架構,他們應該:

  • 實現的複雜性:遷移將這是多大?所需的再造有多複雜?多少要多長時間數據和工程資源站起來一個新的數據管道?你的架構符合安全要求速度如何?當英國食品箱公司Guosto重建他們的ETL管道磚三角洲湖,他們指出”,整個實現,從第一次接觸磚在生產運行工作了大約兩個月——這是令人驚訝的速度給定的大小Gousto技術和治理過程。”
  • 可移植性:隨著越來越多的企業尋求多重雲,便攜式是他們在雲架構如何?數據被保存在專用格式(即導致廠商鎖定。,它需要大量的成本在未來開關)?
免費試著磚
看到所有公司博客上的帖子
Baidu
map