磚的開源基因組工具包優於主要工具
2021年11月17日 在工程的博客
檢查解決方案加速器下載筆記本在這個博客。
基因組技術推動的創建新療法,從核糖核酸疫苗基因編輯和診斷。這些領域的進步促使我們構建發光一個開源工具包,基因組學機器學習和數據分析。工具箱本身是建立在Apache火花™,大數據處理的主要引擎,使人口規模的基因組學。
這個項目開始作為一個行業磚和Regeneron遺傳學中心之間的協作。目標是高級研究通過構建下一代基因組數據分析的工具。我們的靈感來自生物信息學庫等冰雹,叮鈴聲和bedtools,已婚,有一流的大規模數據處理的技術。發光現在十幾倍計算效率比業界領先的基因關聯研究的工具。
大規模輝光和基因組分析的視野
基因組學的主要瓶頸放緩增長數據管理和分析的複雜性。我們的目標是使它簡單的數據工程師和科學家不是訓練在生物信息學為基因組學數據處理分布式雲計算環境。緩解這個瓶頸將反過來推高需求更多的測序數據在一個積極的反饋回路。
何時使用發光
發光領域的適用性聚合和基因變異數據的挖掘。特別是對於數據分析運行很多次迭代,或者需要幾個小時才能完成,如:
- 注釋管道
- 基因關聯研究
- 基於gpu的深度學習算法
- 將數據轉換為生物信息學的工具。
作為一個例子,包括分布式實現發光Regenie方法。你可以在一個節點上運行Regenie,建議學術科學家。但對於工業應用,發光是世界上最成本有效和可伸縮的運行成千上萬的協會測試方法。讓我們來看看這是如何工作的。
基準發光對冰雹
我們專注於基因關聯研究的基準,因為他們是最計算密集型步驟分析管道。發光是弗斯回歸> 10 x高性能相對於冰雹沒有交易的準確性(圖1)。我們能夠實現這一性能,因為我們首先應用一種近似方法,限製的完整方法變異與膽囊疾病(P輝光文檔。
發光的磚Lakehouse平台Beplay体育安卓版本
我們有一個工程師小團隊在行程緊湊開發的光澤。那麼我們能夠趕上世界領先的生物醫學研究所,背後的腦力冰雹嗎?我們通過開發的發光磚Lakehouse平台Beplay体育安卓版本合作行業合作夥伴。磚提供了基礎設施,使你的生產力和基因組數據分析。例如,您可以使用磚的工作構建複雜管道與多個依賴項(圖2)。
此外,磚是一個安全的平台可信的財富100強和醫療組織與他們最敏感的數據,Beplay体育安卓版本數據治理(堅持原則公平)、安全性和遵從性(HIPAA和GDPR)。
未來的挑戰是什麼?
發光現在在v1的成熟,我們正在尋求社會幫助有助於構建和擴展它。有很多令人興奮的事情。
基因組學數據集太大了,批處理與Apache火花可以達到容量限製某些雲區域。開放這個問題將得到解決三角洲湖格式,結合批處理和流處理。利用流媒體,三角洲湖使增量處理新樣本或變量,與邊界情況隔離進行進一步分析。發光與三角洲湖相結合將會解決“n + 1問題”在基因組學。
基因組學研究的一個進一步的問題是數據爆炸。有超過50份癌症基因組圖譜Amazon Web服務。今天是“圍牆花園”,提出的解決方案管理數據集在基因組學領域的平台。Beplay体育安卓版本這解決了數據複製,然後鎖數據平台。Beplay体育安卓版本
這一摩擦就會緩解三角洲分享,一個開放的協議安全實時交換的大型數據集,這將使安全組織之間的數據共享,雲和域平台。Beplay体育安卓版本統一目錄將會很容易發現,審計和管理這些數據資產。