超過95%的所有實驗藥物,目前藥物開發管道預計將失敗。改善這些努力,Regeneron遺傳學中心建立一個最全麵的遺傳學數據庫和電子健康記錄外顯子測序的配對超過400000人。然而,他們麵臨許多挑戰分析這些巨大的數據集:
基因組和臨床數據是高度分散的,使得它很難分析和培訓模式對整個10 tb的數據集。
困難和昂貴的擴展他們的遺產架構以支持對超過800億數據點的分析。
隻是想ETL數據團隊花天數據,以便它可以用來分析。
磚為Regeneron提供了一個平台上運行的AWS,簡化了操作,通過改進的Beplay体育安卓版本數據科學生產率加速藥物發現。這是賦予他們以新的方式分析數據,以前是不可能的。
自動化集群管理:簡化了集群的配置,減少時間DevOps工作所以工程師和數據科學家可以花更多的時間在高價值的任務。
互動工作區:允許數據科學家分享數據和見解,促進透明度和協作的環境在整個藥品開發生命周期。
高性能Spark-powered管道:顯著提高可靠性和速度的ETL管道用於處理10 tbs的EHR + DNAseq數據。
磚,團隊Regeneron DevOps工作不再需要浪費過多的資源建立和維護基礎設施來支持他們的分析。今天,生物信息學團隊、數據科學家和計算生物學家可以花更多的時間在高價值的任務,比如小說發展新的治療方法。
加速藥物目標識別:減少了時間數據科學家和計算生物學家在整個數據集上運行查詢從30分鍾3秒- 600 x改進!
提高生產率:改進的協作,自動化DevOps和加速管道2天vs 3周(ETL)使他們的團隊來支持更廣泛的研究。