通過向可伸縮的、開放的湖屋建築轉變,推動Northwestern Mutual (Insights平台)的轉型Beplay体育安卓版本

本文由西北互惠銀行(Northwestern Mutual)工程(投資產品數據、客戶關係管理、應用程序和報告)副總裁Madhu Kotian撰寫。


數字轉型一直是當代大多數大數據企業計劃的前沿和中心,特別是在那些有著沉重傳統足跡的公司。數字轉換的基礎組件之一是數據及其相關的數據存儲。160多年來,西北互惠銀行一直在幫助家庭和企業實現財務安全。擁有超過310億美元的收入,460多萬客戶和9300多名金融專業人士,沒有多少公司擁有如此多的數據來源。

在當今這個時代,當組織要處理數以百萬計的數據點時,數據攝取是一個挑戰,這些數據點以不同的格式、時間框架和不同的方向以前所未有的數量出現。我們希望為分析數據做好準備,使其有意義。今天,我很興奮地與大家分享我們的新方法,以改造和現代化我們的數據攝取過程、調度過程和數據存儲旅程。我們學到的一件事是,有效的方法是多方麵的,這就是為什麼除了技術安排外,我還將詳細介紹我們的計劃,讓我們的團隊參與進來。

所麵臨的挑戰

在我們開始我們的轉換之前,我們與我們的業務夥伴合作,以真正理解我們的技術限製,並幫助我們為我們的業務案例構建問題陳述。

我們確定的業務難點是缺乏集成數據,客戶和業務數據來自不同的內部和外部團隊和數據源。我們意識到實時數據的價值,但對生產/實時數據的訪問有限,而這些數據可以讓我們及時做出業務決策。我們還了解到,業務團隊構建的數據存儲導致了數據豎井,進而導致了數據延遲問題、數據管理成本的增加和不必要的安全約束。

此外,就我們目前的狀態而言,還有一些技術挑戰。隨著需求和額外數據的增加,我們遇到了基礎設施可伸縮性、數據延遲、管理數據豎井的成本、數據大小和容量限製以及數據安全問題等方麵的限製。隨著這些挑戰的不斷增加,我們知道我們有很多事情要做,需要找到合適的合作夥伴來幫助我們實現轉型。

解決方案分析

我們需要成為數據驅動的競爭對手,更好地為客戶服務,優化內部流程。beplay体育app下载地址我們探索了各種選項,並執行了幾個POCs以選擇最終的建議。我們的前進戰略必須具備以下幾個要素

  1. 為我們的數據攝取、數據管理和分析需求提供全方位的解決方案
  2. 一個現代的數據平台,可以有效Beplay体育安卓版本地支持我們的開發人員和業務分析師使用SQL執行他們的分析
  3. 一個數據引擎,可以支持S3上的ACID事務,並支持基於角色的安全
  4. 一個可以有效保護我們的PII/PHI信息的係統
  5. 一個Beplay体育安卓版本可以根據數據處理和分析需求自動伸縮的平台

我們的傳統基礎設施是基於MSBI Stack的。我們使用SSIS來獲取數據,SQL Server用於數據存儲,Azure Analysis Service用於表格模型,PowerBI用於儀表盤和報表。盡管該平台最初滿足了業務需Beplay体育安卓版本求,但隨著數據量和數據處理需求的增加,我們在擴展方麵遇到了挑戰,並限製了我們的數據分析預期。由於有了額外的數據需求,我們的數據延遲問題來自於加載延遲,以及針對特定業務需求的數據存儲導致了數據豎井和數據蔓延。

由於數據在多個數據存儲間的分布,安全性成為一個挑戰。我們有大約300個ETL作業,這些作業占用了我們7個多小時的日常工作時間。任何改變或新開發的上市時間大約是4到6周(取決於複雜性)。

在數據現代化計劃之前,西北互惠銀行的傳統數據分析堆棧。
圖1:遺留體係結構

在評估了市場上的多個解決方案後,我們決定繼續與Databricks合作,幫助我們在一個開放的湖屋架構上交付一個集成的數據管理解決方案。

在Apache Spark™上開發的Databricks使我們能夠使用Python來構建用於數據攝取和元數據管理的自定義框架。它為我們提供了使用筆記本執行特別分析和其他數據發現的靈活性。Databricks Delta Lake(建立在數據湖之上的存儲層)為我們提供了實現各種數據庫管理功能(ACID事務、元數據治理、時間旅行等)的靈活性,包括所需的安全控製的實現。Databricks解決了管理/擴展集群的難題,並對我們的工程師和業務用戶被壓抑的需求作出了有效的反應。

在數據現代化計劃之前,西北互惠銀行的傳統數據分析堆棧。
圖2:使用Databricks的架構

移民方式和入職資源

我們從一小群工程師開始,將他們從現有的scrum團隊中分配到一個虛擬團隊中。他們的目標是執行不同的POC,以推薦的解決方案為基礎,開發最佳實踐,並過渡到各自的團隊,以幫助新人入職。利用現有的團隊成員對我們更有利,因為他們擁有現有的遺留係統知識,理解當前的攝取流/業務規則,並且精通至少一種編程知識(數據工程+軟件工程知識)。這個團隊首先接受Python培訓,了解Spark和Delta的複雜細節,並與Databricks團隊密切合作,以驗證解決方案/方法。當團隊致力於形成未來狀態時,我們的其他開發人員致力於交付業務優先級。

由於大多數開發人員都是MSBI堆棧工程師,我們的行動計劃是為我們的開發人員、業務用戶和領域顧問提供一個無障礙的數據平台。Beplay体育安卓版本

  • 我們構建了一個包含所有數據加載和轉換需求的攝取框架。它有內置的安全控製,維護我們源係統的所有元數據和機密。攝取過程接受一個包含源、目標和所需轉換的JSON文件。它允許簡單和複雜的轉換。
  • 在調度方麵,我們最終使用了風流,但考慮到DAG的複雜性,我們在風流的基礎上構建了自己的自定義框架,它接受一個包含作業信息及其相關相互依賴關係的YAML文件。
  • 為了使用Delta管理模式級的更改,我們構建了自己的自定義框架,該框架自動化了不同的數據庫類型操作(DDL),而不需要開發人員對數據存儲有突破性的訪問。這也幫助我們在數據存儲上實現了不同的審計控製。

與此同時,該團隊還與我們的安全團隊合作,以確保我們理解並滿足數據安全的所有標準(傳輸加密、休息加密和保護PII信息的列級加密)。

一旦這些框架建立起來,隊列團隊就部署了端到端流程(從源到目標的所有轉換),並在PowerBI上生成了一組指向Delta Lake的新報告/儀表板。我們的目標是測試端到端流程的性能,驗證數據並從現場用戶那裏獲得任何反饋。基於性能/驗證測試的反饋和結果,我們逐步改進了產品。

同時,我們為開發人員建立了培訓指南和操作指南。不久之後,我們決定將團隊成員轉移到各自的團隊中,同時保留一些人繼續支持平台基礎設施(DevOps)。Beplay体育安卓版本每個scrum團隊負責管理和向業務交付各自的功能/特性集。一旦團隊成員回到他們各自的團隊,他們就開始著手調整團隊的速度以包括移植工作的積壓。團隊領導給出了具體的指導和適當的目標,以滿足不同Sprint/項目增量的遷移目標。在隊列組中的團隊成員現在是常駐專家,他們幫助團隊登上新平台。Beplay体育安卓版本他們可以回答任何特別問題或提供幫助。

當我們逐步構建新平台時,我們保留了舊平台進行驗證。Beplay体育安卓版本

成功的開始

整個轉型過程花了我們大約一年半的時間,考慮到我們必須構建所有框架、管理業務優先級、管理安全預期、重組團隊和遷移平台,這是一個相當大的壯舉。Beplay体育安卓版本總體加載時間從7小時顯著下降到2小時。我們的上市時間大約是1 - 2周,而之前是4-6周。這是一個重大的改進,我知道它將在幾個方麵擴展到我們的業務。

我們的旅程還沒有結束。隨著我們繼續加強平台,我們的下一個任務將是擴展湖屋模式。Beplay体育安卓版本我們正在努力將平台遷移到E2,並部署Databricks SQLBeplay体育安卓版本。我們正在製定戰略,為企業用戶提供自助服務平台,以執行他們的特別分析,也使他們能夠攜帶自己的數據,並能夠使用我們的綜Beplay体育安卓版本合數據進行分析。我們學到的是,通過使用一個開放、統一和可擴展的平台,我們受益匪淺。Beplay体育安卓版本隨著我們需求和能力的增長,我們知道我們在Databricks有一個穩健的合作夥伴。

聽到更多西北互惠銀行的湖屋之旅


關於Madhu Kotian

Madhu Kotian,西北互惠銀行(Northwestern Mutual)工程副總裁(投資產品數據、客戶關係管理、應用程序和報告)。他在信息技術領域擁有超過25年的經驗,在使用敏捷實踐的數據工程、人員管理、程序管理、架構、設計、開發和維護方麵擁有豐富的經驗和專業知識。他也是數據倉庫方法和數據集成與分析實現方麵的專家。

可以免費試用Databricks 開始

報名

西北互旅-將BI空間轉化為雲
看現在


Baidu
map