跳轉到主要內容
公司博客上

引入GlowGR:一個工業規模,超快的和敏感的基因關聯研究的方法

分享這篇文章
今天,我們宣布,我們是在做一項新的基因組整體回歸方法可用開源生物信息學社區作為項目的一部分,發光。

大群的人配對臨床和基因組序列數據使前所未有的洞察人類疾病生物學。人口研究等英國生物庫,基因組學英格蘭,或基因組亞洲100 k數據集開車需要創新的方法處理基因數據。這些方法包括全基因組關聯研究(GWAS),它豐富我們的理解疾病的遺傳結構和尖端工業應用中使用,如識別治療藥物開發的目標。然而,這些數據集提出新穎的統計和工程挑戰。統計工具,如已經解決的挑戰SAIGE Bolt-LMM,但他們很難建立和非常緩慢biobank-scale數據集上運行。

在一個典型的,一個表型(有機體)的體貌特征,如膽固醇水平或糖尿病診斷狀態進行統計檢測與數以百萬計的整個基因組的遺傳變異。複雜的混合模型和全基因組親緣回歸方法已經開發控製和人口結構固有的大量基因研究人口遺傳協會在測試;等幾種方法BOLT-LMM,SAIGE,fastGWA使用一種稱為全基因組的技術回歸敏感分析一個表型biobank-scale項目。然而,深深表型biobank-scale項目可能需要成千上萬的獨立gwas分析臨床變量的全譜,和當前工具運行規模仍然非常昂貴。為了解決的挑戰,有效地分析這些數據集,Regeneron遺傳學中心剛剛開發了一個全基因組的新方法回歸方法,使在向上運行GWAS同時數以百計的表型。這個令人興奮的新工具提供了相同的優越的測試作為當前最先進的方法在計算成本的一小部分。

這個新的基因組回歸(水氣比)的方法重塑整個基因組回歸模型的一個小問題,基因區域的模型。該方法的描述今天公布的預印本和實施regenie c++工具。作為合作的一部分,Regeneron遺傳學中心和磚開源項目發出我們興奮地宣布GlowGR,閃電般的和高度可伸縮的分布式實現水氣比的算法,而設計的Apache火花™和與其他發光功能集成。GlowGR,幾十個表型上執行水氣比分析可以同時在幾分鍾內,完成一個任務,要求數百或數千小時與現有最先進的工具。此外,GlowGR分布沿著樣本和基因變異矩陣維度,使線性擴展和高度的數據和任務並行性。GlowGR插頭無縫地在任何現有的GWAS工作流,提供立即提高協會檢測能力計算成本可以忽略不計。

實現與全基因組回歸精度和效率高

整個基因組回歸工具有許多優點。首先,它更有效率:在實現單節點,開源regenie工具,全基因組回歸是數量級的速度比SAIGE Bolt-LMM,或fastGWA而產生等效的結果(圖1)。第二,它是簡單的並行化:在下一節中,我們描述如何實現全基因組回歸使用Apache開源項目中火花發光。

GWAS的比較結果三個定量表型從英國生物庫項目,由REGENIE / GloWGR BOLT-LMM, fastGWA。

除了性能考慮,整個基因組協變量回歸方法生產兼容標準的GWAS方法,並消除虛假的聯係,由於人口結構與傳統方法。下麵圖2中的曼哈頓情節比較傳統的線性回歸的結果GWAS使用標準,使用生成的共線性回歸GWAS水氣比。這種靈活性比現有的GWAS工具GlowGR是另一個巨大的優勢,並將允許各種各樣的令人興奮的擴展協會測試框架,已經可以在發光。

例子情節展示GlowGR提供的收益在GWAS線性回歸。

圖3顯示了GlowGR之間的性能比較,REGENIE BoltLMM, fastGWA。我們的基準測試整個基因組回歸測試中實現發光中可用的c++實現單節點regenie工具驗證該方法的準確性。我們發現這兩種方法實現統計相同的結果。我們還發現,基於Apache火花™實現發光尺度線性與節點的數量。

樣本可視化基準測試整個基因組回歸測試中實現發光與c++實現的單節點regenie工具,fastGWA, BOLT-LMM

縮放整個基因組內回歸工程發光

執行水氣比分析與GlowGR有5個步驟:

  • 單核苷酸多態性基因型矩陣劃分成連續的塊(~ 1000個snp /塊,稱為位點)
  • 安裝多個脊模型(~ 10)在每一個軌跡
  • 使用生成的脊模型減少軌跡從1000功能特性的矩陣(每個特性的預測是一個脊模型)
  • 池產生的特性的基因座到一個新的減少特征矩陣X L基因座X J脊模型(N個人/軌跡)
  • 配件全基因組的最終模型從X Y對表型的貢獻。

發光提供了易於使用的抽象圖4所示將大型基因型矩陣轉換為阻塞矩陣(下麵,左),然後擬合整個基因組回歸模型(下麵,右側)。這些可以應用於數據的加載基因型發光理解的文件格式,包括VCF叮鈴聲和BGEN格式,以及基因型數據存儲在Apache火花™本地文件格式三角洲湖

創建一個矩陣按軌跡和分組擬合混合使用GlowGR嶺回歸模型。

發光的提供了一個實現水氣比方法定量特征,和一個二進製特征變異在進步。創建的covariate-adjusted表型GlowGR可以寫出來的Apache拚花™或三角洲湖數據集,它可以很容易地加載和分析Apache火花,熊貓和其他工具。最終,利用協變量計算與水氣比全基因組關聯研究很簡單,運行命令如圖5所示,如下。這個命令是由Apache火花™,同時,在所有被測試的遺傳標記。

更新表型與水氣比結果和運行使用內置的GWAS協會從發光測試方法

加入我們,嚐試從基因組整體回歸在發光!

全基因組的回歸是可用的發光,這是一個開源項目在Github上2,Apache許可證。你可以開始使用這個筆記本,展示了如何使用GloWGR,通過閱讀預印,通過閱讀我們的項目文檔,或者你可以創建一個叉的存儲庫今天開始貢獻代碼。發光是安裝在磚基因組學的運行時(Azure|AWS今天,你可以開始一個預覽。

免費試著磚
看到所有公司博客上的帖子
Baidu
map