跳轉到主要內容
工程的博客

大規模建設最快的DNASeq管道

分享這篇文章

統一為基因組學分析平台Beplay体育安卓版本

今年6月,我們宣布了統一為基因組學分析平台Beplay体育安卓版本用一個簡單的目標:加快發現協作互動基因組數據處理平台,在大規模分析和人工智能。beplay娱乐iosBeplay体育安卓版本在這篇文章中,我們將詳細的一個組件平台:一個可伸縮的DNASeq管道與GATK4整合速度一流。Beplay体育安卓版本

進行大規模的序列數據

絕大多數的基因組數據來源大規模並行測序技術。在這種技術中,樣本的DNA必須先切成短段長度約100個堿基對。定序器將發出每一部分的基因序列。為了正確排序錯誤,我們通常要求每個位置的基因組是由至少30段。以來在人類基因組中約有30億個堿基對,這意味著測序後,我們必須重新組裝30億/ 100 * 30 = 9億短讀之前我們就可以開始真正的分析。這是一個不小的努力。

因為這個過程是常見的任何人使用DNA數據,編寫一個良好的方法是很重要的。GATK團隊廣泛研究所領導的方式描述最佳實踐用於處理DNASeq數據,很多人今天GATK本身或GATK-compliant管道運行。

在高級別上,這個管道由3個步驟組成:

  • 每個短閱讀參考基因組對齊
  • 統計技術應用於區域與一些變體讀來確定一個真正的可能性變化的參考
  • 注釋基因變體網站等信息,如果有的話,它的影響

挑戰處理DNASeq數據

雖然DNASeq管道組件的特點,我們發現,我們的許多客戶麵對共同挑戰擴展他們的管道不斷增長的數據。beplay体育app下载地址這些挑戰包括:

  • 基礎設施管理:許多我們的客戶運行這些管道內部的beplay体育app下载地址高性能計算(HPC)集群。然而,HPC集群不是彈性——你不能根據需求迅速增加。在最好的情況下,增加數據量導致長隊列的請求,因此漫長的等待時間。在最壞的情況下,客戶糾結於昂貴的停機,beplay体育app下载地址影響效率。甚至在公司他們的工作負載遷移到雲中,人們花盡可能多的時間寫配置文件進行價值分析。
  • 數據組織:Bioinformaticians習慣於處理多種文件格式,如BAM, FASTQ, VCF。然而,隨著樣本的數量達到某一閾值時,管理個人文件變得不可行。規模分析,人們需要簡單抽象來組織他們的數據。
  • 性能:每個人都關心他們的管道的性能。傳統上,每個基因組的價格吸引最考慮,盡管臨床用例成熟,速度是越來越重要。

當我們看到這些挑戰重複在不同的組織中,我們認識到一個機會來利用我們的經驗與原始創造者Apache的火花TM領先的引擎對於大型數據處理和機器學習,和磚平台,幫助我們的客戶DNASeq管道在運行速度和規模不創建操作頭痛。beplay体育app下载地址Beplay体育安卓版本

我們的解決方案

我們已經建立了第一個可用的horizontally-scalable管道與GATK4整合最佳實踐。我們使用火花有效切分每個樣本的輸入數據並將其傳遞給單一節點等工具BWA-MEM對校準和GATK HaplotypeCaller變體。我們的管道運行數據磚工作,所以平台處理基礎設施供應和配置無需用戶幹預。Beplay体育安卓版本

隨著新數據到達時,用戶可以利用我們的REST api和磚CLI啟動一個新的運行。

當然,這個管道隻是第一步獲得生物見解從基因組數據。簡化下遊分析,除了輸出VCF文件等熟悉的格式,我們寫出對齊的讀取,稱為變體,高性能的帶注釋的變體磚三角洲湖拚花表。以來所有樣本的數據可以在一個單一的邏輯表,它是簡單的扭轉和加入對有趣的遺傳變異的來源,如醫學圖像和電子醫療記錄無需爭論成千上萬的個人文件。研究人員可以利用這些聯合數據集搜索就像一個人的遺傳密碼和屬性之間的相關性是否有某種疾病的家族史。

基準測試我們DNASeq管道

精度

自DNASeq管道的輸出為重要的研究和臨床應用,準確性是至關重要的。結果從我們的管道相對於策劃實現高精度高信任度變體調用。注意,這些結果不包括任何變體分數調整或過濾,這將進一步提高精度通過消除誤報。

精度 回憶 F分數
單核苷酸多態性 99.34% 99.89% 99.62%
INDEL 99.20% 99.37% 99.29%

呼籲和諧vs GIAB NA24385高信心PrecisionFDA真理的挑戰數據集(根據hap.py)

性能

對於我們的基準測試,我們相比DNAseq管道Edico基因組的FPGA實現對代表全基因組和全外顯子組數據集從瓶中基因組項目。我們還測試了管道對GIAB 300 x覆蓋數據集顯示其可伸縮性。每次運行包括最佳實踐質量控製措施如重複標記。這個表不包括變異注釋時間因為不是所有平台包括它的盒子。Beplay体育安卓版本

在這些實驗中,磚集群直接閱讀和寫作與S3。運行Edico或OSS GATK4,我們輸入數據下載到本地文件係統。下麵的下載時間不包括在運行時。根據Edico的文檔,係統可以從S3流輸入數據,但我們無法得到它的工作。我們使用以來,磚現貨實例集群終端會自動恢複點實例。下麵的計算成本隻包括AWS成本;Beplay体育安卓版本平台/許可費用排除在外。

30 x覆蓋整個基因組

Beplay体育安卓版本 引用信心代碼 集群 運行時 大約計算成本 速度提高
VCF 13 c5.9xlarge(416芯) 24 m29s 2.88美元 3.6倍
Edico VCF 1 f1.2xlarge (fpga) 1 h27m 2.40美元 - - - - - -
GVCF 13 c5.9xlarge(416芯) 39 m23 4.64美元 3.8倍
Edico GVCF 1 f1.2xlarge (fpga) 2 h29m 4.15美元 - - - - - -

30 x覆蓋全外顯子組

Beplay体育安卓版本 引用信心代碼 集群 運行時 大約計算成本 速度提高
VCF 13 c5.9xlarge(416芯 6 m36s 0.77美元 3.0倍
Edico VCF 13 c5.9xlarge(416芯 19 m31 0.54美元 - - - - - -
GVCF 13 c5.9xlarge(416芯) 7錳 0.86美元 3.5倍
Edico GVCF 1 f1.2xlarge 25 m34s 0.71美元 - - - - - -

300 x覆蓋整個基因組

Beplay体育安卓版本 引用信心代碼 集群 運行時 大約計算成本 速度提高
GVCF 50 c5.9xlarge(1600芯) 2 h34m 69.30美元 (沒有這種規模的競爭解決方案)

在大致相同的計算成本,我們的管道達到更高的速度,通過橫向擴展和GATK4一致。隨著數據量或時間敏感性增加,很容易添加額外的計算能力通過增加集群規模加速分析在不犧牲準確性。

技術和優化

分片變量調用

盡管GATK4包括火花實現常用的HaplotypeCaller,目前處於測試階段和標記為不安全的真正的用例。在實踐中,我們發現實現不同意單一節點管道以及遭受長和不可預知的運行時。規模不同的召喚,我們實現了一個新的切分方法上的火花SQL。我們添加了一個催化劑發電機有效的地圖每個短讀一個或多個襯墊垃圾箱,每個本覆蓋了5000個堿基對。然後,我們再分配和排序本id和調用單節點HaplotypeCaller每個垃圾箱。

火花SQL的簡單轉換

我們的第一個實現使用亞當項目等簡單的轉換不同變體表示之間的轉換和分組成對讀取結束。這些轉換通常使用引發的抽樣API。通過重寫它們作為火花SQL表達式,我們節省CPU周期和內存消耗減少。

優化基礎設施

最後,我們設法減少數據移動開銷,幾乎所有的CPU時間運行的核心算法,如BWA-MEM HaplotypeCaller。在這一點上,而不是優化這些外部應用程序,我們專注於優化配置。因為我們控製管道的包裝,我們可以做這一步一旦以便我們所有的用戶受益。

最重要的優化以減少內存開銷,直到我們能利用高CPU虛擬機,每個核心的最低價格,但最少的內存。一些有用的技巧包括壓縮GVCF輸出帶參考區域盡可能早和修改SnpEff變異注釋庫,這樣可以執行人線程之間共享內存數據庫。

所有這些優化(以及更多)是我們DNASeq內置管道提供開箱即用的準備解決方案處理和分析大規模基因組數據集在業界領先的速度、精度和成本。

試一試!

我們DNASeq管道目前為私人預覽我們的一部分統一為基因組學分析平台Beplay体育安卓版本。填寫預覽申請表如果你感興趣的平台旋轉頁麵或訪問我們的基因組的解決方案Beplay体育安卓版本了解更多

免費試著磚
看到所有工程的博客的帖子
Baidu
map