跳轉到主要內容
公司博客上

Lakehouse把數據如何幫助安進加快藥物開發&交貨嗎

分享這篇文章

這是一個由客戶撰寫文章Jaison多米尼克,產品所有者,和Kerby約翰遜,著名的軟件工程師,安進公司。

安進公司全球最大的獨立的生物科技公司,一直是創新的代名詞。40年來,我們開創了一種新型drug-making流程和救命藥物開發,積極影響世界各地的數百萬人的生命。為了繼續履行我們的使命為了最好地服務於患者,我們最近開始了另一個旅程的創新:一個完整的數字轉換。

在這個過程中如何利用我們的數據的暢想對更好的結果在業務——從提高研發效率優化供應鏈和商業化,顯而易見的,類型的問題我們的數據團隊尋求解決發生了巨大變化在過去一些年。此外,這些技能不再是孤立的問題,部門或功能。相反,最有效的問題是跨職能的性質和需要結合不同的人,獨特的技能攻擊問題的小說。在我們追求現代化,我們選擇磚Lakehouse平台Beplay体育安卓版本作為我們的基礎數字轉換的旅程。因此,我們能夠打開我們的數據在各個組織的潛力,提高運營效率和加速藥物發現。

今天,我們分享我們的成功故事,希望其他人可以借鑒我們的旅程並應用到自己的商業策略。

從數據倉庫到數據湖,和內部的問題

在三個核心垂直安進的臨床試驗,生產和商業化——豐富的有價值的數據。但隨著數據提出的挑戰時實際使用有效數據。

我們無法真正一起編織我們的業務的各個方麵,影響操作效率是我們按比例縮小的內部和客戶的數量。beplay体育app下载地址關鍵是不僅使它易於訪問和處理數據,但是這樣做以協作的方式,關係在不同的角色,有不同的觀點——一個連接數據結構,使更好的跨職能協作。beplay娱乐ios如果你隻從一個或兩個角度看,你會錯過別人的有價值的關鍵點。

例如,考慮一個問題:如何精確地預測需求,這樣你就可以產生適量的治療的病人需要什麼?

如果你看答案從供應鏈和生產的角度來看,你失去了商業銷售預測數據。另一方麵,你也不想把商業銷售預測所需的生產的福音,因為如果他們打擊他們的銷售數量的水,總是希望,你低估了生產需要生產什麼?

安進公司如何精確地預測需求產生適量的治療病人的需要。

為了解決今天的問題,企業需要關注不同的數據關係和聯係,這樣他們可以看看相同的數據來自多個鏡頭——但他們如何啟用這個嗎?安進公司,我們已經打破了現代數據需求的基礎如下:

  • 數據需要組織和容易使用。
  • 別人的共享和重用數據在一個自然的方式是必須的。
  • 分析應該能夠運行可信共享的數據。
  • 不同形式的分析從描述性(BI)預測(ML)有助於促進新發現和預測數據的一個版本。
  • 數據需要能夠成為新的類型,從一個係統到另一個發生變化,添加新域名等等,但這一切的核心應該保持一致。

需要是這樣的情況很可能被大多數組織中,但看到它來生活特別困難的企業與反直覺的過程:每個團隊擁有、管理和組織他們的數據不同,需要另一個項目如果他們隻是想分享它。我們不僅太糾結多年的積累更多的數據比我們知道如何處理,但是還缺少過程和基礎設施,以確保每個人都能從相同的數據工作。

試圖解決我們早期的數據需求,我們從遺留技術基礎設施到Hadoop-based數據湖幾年前。Hadoop data湖,我們就能保持結構化和非結構化數據在一個地方,但重要的數據仍麵臨挑戰,在技術方麵和在流程、成本和組織。共享集群造成“吵鬧的鄰居”的問題,是困難和昂貴的規模。

為我的角色,作為一個平台的產品負責人,管理一個共享集群是一個噩夢。Beplay体育安卓版本總是,從來沒有一個升級版本,這意味著我們有分布式成本,例如,如何負責高存儲和低計算一組,另一組為高計算和低存儲。

這種方法還需要縫合在一起的各種不同的工具,以滿足每個人的需要,創造合作的重大挑戰。和許多其他人一樣,我們有多種方式,終端用戶消費數據:Jupyter筆記本,R工作室,Spotfire和畫麵,隻添加的複雜性和挑戰使數據容易獲得那些需要它。

lakehouse架構是如何解決我們的問題

采用磚Lakehouse平台使得各種各樣的團隊和角色做更多的與我們的Beplay体育安卓版本數據。這種統一和協作平台,我們已經能夠利用一個單一的beBeplay体育安卓版本12;lay娱乐ios環境為所有類型的用戶和他們的首選工具,保持操作由一組一致的數據。

安進與磚Lakehouse的統一數據分析架構。

我們利用三角洲湖,使酸合規、曆史lookback,降低對開發人員開始編碼通過提供一個常見的數據層數據分析師和數據科學家使用的數據來優化供應鏈和改善操作。我們也利用AWS膠水連接不同的磚環境這一個湖——是否數據都存儲在一個AWS帳戶或10個不同的賬戶。這都是相連的。

這使得我們能夠提供足夠的靈活性為各種不同的需求,同時標準化Apache火花™數據和分析。統一數據層內lakehouse允許安進任何類型和大小的可靠地處理數據,同時提供應用程序團隊推動業務的靈活性。

你想要什麼尺寸的集群?你想花多少錢?它是更重要的是讓你的報告快一個小時,還是降低成本?這樣的決定現在可以由個人團隊。總的來說,這種標準化的工具和語言和單一來源數據科學家,真理的分析師,和工程師,就是開始啟用連接團隊。

我們目前的數據架構使用Amazon S3作為真理的單一來源為所有數據,三角洲湖作為常見的數據層,膠水數據目錄的集中式metastore磚,一個麋鹿棧與Kibana監控,氣流編排,和消費,無論是分析師或數據科學家,所有操作的磚Lakehouse平台。Beplay体育安卓版本

這個常見的數據架構,集成這些架構模式使我們轉移我們的注意力從平台維護真正挖掘業務真正想要和我們的用戶所關心的。Beplay体育安卓版本關鍵是我們能夠利用lakehouse方法統一我們的數據在我們的各種數據團隊與我們的業務目標而調整。

數據已經準備好了,各種數據分析師團隊從工程數據科學可以在數據訪問和合作。磚的協作筆記本電腦支持的beplay娱乐ios編程語言選擇輕鬆地探索並開始利用下遊的數據分析和毫升。當我們開始使用磚的SQL,我們的分析師可以發現和探索最新和最新鮮的數據而無需將它移動到一個數據倉庫。他們可以運行查詢不犧牲性能,很容易想象結果與工具的選擇——通過內置的可視化和儀表板或表,主要是由整個公司業務合作夥伴使用。

我們的數據科學家還受益於使用磚機器學習簡化毫升的所有方麵。由於磚毫升是建立在三角洲湖和MLflow lakehouse基礎,我們的數據科學家可以準備和過程數據,簡化跨團隊協作和規範完整的生命周期從實驗到生產沒有根據數據工程支持。這種改進的方法管理毫升有直接影響減少所花費的時間參加臨床試驗。

改善患者的結果與連接數據和團隊

磚Lakehouse平台的實現最終幫助我們繼續實現我們的目標服務的病人和改善藥物開發生命周期在Beplay体育安卓版本現代世界。數據攝取率顯著增加,改善處理時間75%導致2 x更快的業務洞察力,同時減少計算成本了~ 25%靜態Hadoop集群。

磚,我們需要現代的方法來實現各種用例通過關注數據,關係,關係,而不僅僅是技術。自2017年與磚,我們看到巨大的增長在整個公司采用。到目前為止,2000 +用戶數據工程分析師通過磚400 tb的數據訪問支持40 +數據湖項目和240年的數據科學項目。

4 +年,安進,2000 +用戶數據工程分析師通過磚400 tb的數據訪問支持40 +數據湖項目和240年的數據科學項目。

這看起來像在實踐中很容易使用,容易找到數據,使整個公司的用例:

  • 基因組規模勘探和研究:利用基因組數據的力量使我們加速藥物發現過程可以大大增加我們的機會找到新的藥物來治療嚴重的疾病。
  • 優化臨床試驗設計:現在我們可以引進各種數據從購買數據真實的證據,並利用見解從這各種各樣的臨床資料,提高成功的可能性和潛在的節省數千萬美元。
  • 供應鏈和庫存優化:生產效率和庫存管理是一個挑戰對於每一個製造業,和藥品製造業也不例外。高效的生產和優化供應鏈管理可以幫助節省數百萬美元的業務,並幫助得到正確的藥物在正確的時間正確的病人。

通過其與磚,安進公司已經能夠更好的與團隊需要的數據連接,提高病人和業務成果。

安進公司的成功表明,小說由來已久的問題的解決方案需要刷新業務的平台,創新的工具和方法。Beplay体育安卓版本采用在安進繼續上升,我們將探索新的方法來利用lakehouse方法促進協作和透明度與三角洲等工具共享。另一個有趣的工具,它可以提供價值是δ生活表,這可以幫助我們簡化ETL開發和管理,以及我們的下遊數據消費者受益。最終,磚已經幫助我們的高級分析的起點,所以我們可以花更多的錢解決問題,可以受益的病人需要治療,和更少的時間重建基礎設施,使它。

下一個步驟

免費試著磚

相關的帖子

看到所有beplay体育app下载地址 的帖子
Baidu
map