腫瘤/正常管道
重要的
這個文檔已經退休了,可能不會被更新。產品、服務或技術中提到的這些內容不再支持。
磚基因組學的運行時已被棄用。開源的等價物,看到回購genomics-pipelines和發光。生物信息學庫是運行時的一部分被釋放集裝箱碼頭工人,可從ProjectGlow Dockerhub頁麵。
關於磚運行時棄用策略的更多信息和時間表,看看磚運行時版本和支持計劃的支持。
磚腫瘤/正常管道GATK最佳實踐簡稱兼容管道讀取校準和體細胞變異使用MuTect2變體調用者。
設置
管道運行作為一個磚的工作。你可以設置一個集群政策保存配置:
{“num_workers”:{“類型”:“無限”,“defaultValue”:13},“node_type_id”:{“類型”:“無限”,“defaultValue”:“c5.9xlarge”},“spark_env_vars.refGenomeId”:{“類型”:“無限”,“defaultValue”:“grch38”},“spark_version”:{“類型”:“正則表達式”,“模式”:”。* hls。*”,“defaultValue”:“7.4.x-hls-scala2.12”},“aws_attributes.ebs_volume_count”:{“類型”:“無限”,“defaultValue”:3},“aws_attributes.ebs_volume_size”:{“類型”:“無限”,“defaultValue”:200年}}
基因組學的集群配置應該使用磚運行時。
任務應該腫瘤/正常筆記本發現這一頁的底部。
最佳性能,使用優化計算實例與至少60 gb的內存。我們建議c5.9xlarge。
如果你跑步基礎質量分數調整,使用通用(m5.4xlarge)實例,而不是因為這個操作需要更多的內存。
為了降低成本,使用所有現場工人的現貨跌回隨需應變選項選中。
附上3 200 gb的SSD EBS卷
參考基因組
你必須使用一個配置參考基因組環境變量。使用GRCh37,設置環境變量:
refGenomeId=grch37
使用GRCh38,改變grch37
來grch38
。
使用一個自定義的參考基因組,參見自定義參考基因組。
參數
管道接受參數,控製其行為。最重要和常見的改變參數記錄在這裏。查看所有可用的參數及其使用信息,運行第一個單元格的管道筆記本。定期添加新的參數。導入筆記本之後,它作為一個工作任務,您可以設置這些參數所有運行或每次運行。
參數 |
默認的 |
描述 |
---|---|---|
清單 |
n /一個 |
描述輸入清單。 |
輸出 |
n /一個 |
管道輸出應該寫的路徑。 |
replayMode |
跳過 |
|
exportVCF |
假 |
如果這是真的,管道將結果寫入一個VCF文件以及三角洲。 |
perSampleTimeout |
12小時 |
一個超時每樣例應用。達到這個超時後,管道繼續到下一個樣品。該參數的值必須包括一個超時單元:“年代”秒,“m”分鍾,或“h”數小時。例如,60米的導致超時60分鍾。 |
提示
優化運行時,設置spark.sql.shuffle.partitions
火花配置三倍數量的集群的核心。
清單格式
清單是一個CSV文件或blob描述在哪裏找到輸入FASTQ或BAM文件。例如:
pair_id,file_path,sample_id,標簽,paired_end,read_group_idHG001,*_R1_*。正常的。fastq。bgz,HG001_normal,正常的,1,read_group_normalHG001,*_R2_*。正常的。fastq。bgz,HG001_normal,正常的,2,read_group_normalHG001,*_R1_*。腫瘤。fastq。bgz,HG001_tumor,1,腫瘤,read_group_tumorHG001,*_R2_*。腫瘤。fastq。bgz,HG001_tumor,2,腫瘤,read_group_tumor
如果你的輸入包括對齊BAM文件,你應該省略了paired_end
字段:
pair_id,file_path,sample_id,標簽,paired_end,read_group_idHG001,*。正常的。bam,HG001_normal,正常的,,read_group_tumorHG001,*。腫瘤。bam,HG001_tumor,腫瘤,,read_group_normal
腫瘤和正常樣本對於一個給定的個人分組的pair_id
字段。腫瘤和正常樣本的名字讀集團必須在兩個不同的名字。
提示
如果提供的清單是一個文件,file_path
在每一行可能是一個絕對路徑或相對路徑清單文件。如果提供的清單是一個blob,file_path
字段必須是一個絕對路徑。可以包含著(*)
許多文件相匹配。
額外的使用信息和故障排除
腫瘤/正常管道分享了很多操作細節與其他磚管道。等更詳細的使用信息,輸出格式結構,提示為運行程序,步驟設置自定義參考基因組,和常見的問題,看看DNASeq管道。
請注意
管道被命名為從TNSeq MutSeq磚運行時的7.3 LTS基因組學及以上。