客戶的故事
通過基於雲的人工智能推進疾病治療

工業:生命科學

解決方案:疾病預測遺傳關聯研究

Beplay体育安卓版本平台用例:三角洲湖數據科學機器學習ETL

雲:AWS

大量基因組學數據集正在改變像Biogen這樣的製藥公司如何為患者護理的治療方法確定新靶點,並提高現有治療方法的療效。但隨著Biogen研究項目組合的增長,他們的基礎設施和分析能力還沒有準備好管理包含數十億神經疾病發現的龐大基因組數據集。Biogen求助於Databricks將其內部數據基礎設施轉移到AWS雲中,這大大縮短了數據處理時間,並增加了協作團隊之間的帶寬。通過提高可擴展性和速度,疾病生物學家現在能夠加深他們對遺傳變異、人類壽命和神經狀態的理解,為世界各地的患者開發療法和治療方法。

千兆字節的基因組學數據推動了現代化進程

Biogen利用人類基因證據對他們的藥物組合進行排名,發現新的基因靶點,並更好地了解神經疾病生物學。但是,從千兆字節的基因組學數據中提煉出基因型和表型之間的明確聯係,需要建立可擴展和適應的數據技術——這是傳統解決方案無法處理的。

由於需要處理來自英國生物銀行50萬誌願者參與者的大量健康和福利數據,Biogen麵臨著重大的信息學挑戰。他們現有的數據中心存儲容量不足,無法大規模收集和分析數據。他們的網絡帶寬無法處理傳輸如此多的信息,在2018年,這些問題導致Biogen的高性能計算集群中斷了一周。

“我們真的需要一個新的Biogen數據範式,”Biogen基因組技術和信息學高級總監大衛·塞克斯頓(David Sexton)說。“遷移到Databricks和雲幫助我們以pb級的規模可視化和分析基因組數據。”

大規模簡化信息學和基礎設施

Databricks推出了Databricks for Genomics,一個專門針對基因組數據工作流的運行時,以及Databricks Lakehouse平台的一個組件。Beplay体育安卓版本它支持Biogen的全方位需求,從初始數據處理到大規模統計分析。它還幫助他們的數據團隊遷移到一種架構,在這種架構中,他們可以使用開源技術來加速大型數據集的攝取和分析。

與DNAnexus和Databricks合作,Biogen將其內部數據基礎設施遷移到亞馬遜網絡服務(AWS)雲中。這些共同的努力簡化了操作,並有助於減少平均數據處理時間。對於Delta Lake, Biogen采用了以前需要2周時間來處理70萬個變體的管道,並在大約15分鍾內對其進行了優化,以注釋200萬個變體。

“英國生物銀行數據集因其龐大的規模和複雜性而具有挑戰性。有50萬名參與者,我們需要處理數百萬個變量和數據點,我們需要了解。”“為了建立一個高質量的數據集,我們必須處理這些變量,將它們與健康和評估數據結合起來,並將所有內容組合成一個大型數據語料庫,這樣科學家就可以輕鬆地查詢。”

有了所需的存儲和帶寬支持,Biogen可以專注於數據科學生產力和新療法。通過將DNAnexus平台與Databricks fBeplay体育安卓版本or Genomics相結合,Biogen能夠使用英國生物銀行的數據來識別含有影響人類壽命和神經狀態的蛋白質截斷變異的基因。這些發現導致了兩種新的藥物靶點的確定,並對阿爾茨海默病和帕金森病等神經退行性疾病有了新的認識。

加速發現新的疾病治療方法和療法

塞克斯頓說:“關於這些數據,真正重要的是它需要高質量和一致性。”“數據庫使我們能夠專注於將特定基因變異與特定疾病相匹配的科學,而不是在雲優化上浪費時間和帶寬。”

為了確保數據庫的高度準確性和可查詢性,Biogen需要能夠根據基因位置對數據進行大量分區。對於跨越數千列的如此多元數據,垂直分區至關重要。安全也是如此;在係統構建和研究人員獲得訪問權限的過程中,保護數據的完整性非常重要。遷移到Databricks環境允許Biogen以多種方式拚接複雜的數據,並將Spark Hive Metastore集成到他們的平台訪問控製模型中,以實際監督數據安全。Beplay体育安卓版本

塞克斯頓說:“數據庫使我們能夠在大約六種不同的基因中找到許多變異,所有這些變異都對人類壽命有重大影響。”“我們已經能夠建立ML模型,使我們能夠了解基因組變異如何影響我們正在開發的其他藥物的功能和可能的成功。隨著數據效率和發現能力的大幅提高,我們現在有了一個獨特的機會,可以更好地了解複雜疾病的生物學,並開發出靶向治療方法。”

  • 200萬年
    15分鍾內分析基因組變異
  • 2個藥物靶點
    阿爾茨海默病和帕金森病等神經退行性疾病

數據庫使我們能夠專注於將特定基因變異與特定疾病相匹配的科學,而不是在雲優化上浪費時間和帶寬。”

- David Sexton, Biogen公司基因組技術和信息學高級總監

相關內容

2020年Spark + AI峰會技術講座

Baidu
map