預包裝的VEP注釋管道

重要的

這個文檔已經退休了,可能不會被更新。產品、服務或技術中提到的這些內容不再支持。

磚基因組學的運行時已被棄用。開源的等價物,看到回購genomics-pipelines發光。生物信息學庫是運行時的一部分被釋放集裝箱碼頭工人,可從ProjectGlow Dockerhub頁麵。

關於磚運行時棄用策略的更多信息和時間表,看看所有支持的磚運行時版本

設置

運行VEP(96年發布)作為一個磚的工作。

參考基因組

您必須配置參考基因組和記錄使用環境變量。使用GRCh37合並運用RefSeq成績單,設置環境變量:

refGenomeId=grch37_merged_vep_96

refGenomeId列出所有成對的參考基因組和轉錄:

GRCh37

GRCh38

運用

grch37_vep_96

grch38_vep_96

RefSeq

grch37_refseq_vep_96

grch38_refseq_vep_96

合並後的

grch37_merged_vep_96

grch38_merged_vep_96

參數

管道接受一個參數,控製其行為的數量。導入筆記本之後,它作為一個工作任務,設置這些參數所有運行每次運行

參數

默認的

描述

inputVcf

n /一個

已文件的路徑和VEP注釋。

輸出

n /一個

路徑管道輸出應該寫。

replayMode

跳過

之一:

  • 跳過:如果已經存在,輸出階段跳過。

  • 覆蓋:現有的輸出被刪除。

exportVCF

如果這是真的,管道寫結果VCF和三角洲湖。

extraVepOptions

——一切——最小——allele_number——叉4

額外的命令行選項傳遞給VEP。管道和設置一些選項不能覆蓋:——組裝,——緩存,——dir_cache,——fasta,- - -格式,——合並,——no_stats,——離線,——output_file,——refseq,——已。看到所有可能的選項(VEP網站)(VEP網站)。

LOFTEE

使用插件擴展運行VEP、過濾或操縱VEP輸出。設置LOFTEE使用以下指令根據所需的參考基因組。

grch37

創建一個LOFTEE集群使用一個init腳本

# ! / bin / bashDIR_VEP_PLUGINS=mkdir - p / opt / vep /插件DIR_VEP_PLUGINS美元cdDIR_VEP_PLUGINS美元回聲出口采用PERL5LIB=美元$ PERL5LIB:DIR_VEP_PLUGINS美元/ loftee > > /磚/ / conf / spark-env火花。sh git克隆——深度1——主分支https://github.com/konradjk/loftee.git

創建一個掛載點來存儲在雲存儲額外的文件。看到磚文件係統(DBFS)是什麼?。腳本中的值替換為你的掛載點。

如果需要,保存原始序列的掛載點。

cd<掛載點> wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz.fai wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz.gzi

如果需要,保存在掛載點PhyloCSF數據庫。

cd<掛載點> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh37/phylocsf_gerp.sql.gz gunzip phylocsf_gerp.sql.gz

VEP管道運行時,提供相應的額外選項。

——dir_plugins / opt / vep /插件,插件LoF loftee_path: / opt / vep /插件/ loftee human_ancestor_fa: <掛載點> / human_ancestor.fa.gz conservation_file: <掛載點> / phylocsf_gerp.sql

grch38

創建一個可以解析權貴LOFTEE集群文件使用init腳本

# ! / bin / bash#下載LOFTEEDIR_VEP_PLUGINS=mkdir - p / opt / vep /插件DIR_VEP_PLUGINS美元cdDIR_VEP_PLUGINS美元回聲出口采用PERL5LIB=美元$ PERL5LIB:DIR_VEP_PLUGINS美元/ loftee > > /磚/ / conf / spark-env火花。sh git克隆——深度1——分支grch38 https://github.com/konradjk/loftee.git肯特#下載源代碼樹mkdir - p / tmp / bigfilecd/ tmp / bigfile wget https://github.com/ucscGenomeBrowser/kent/archive/v335_base.tar.gz焦油xzf v335_base.tar.gz#構建肯特源出口KENT_SRC=$ PWD肯特- 335 _base / src出口MACHTYPE=$ (uname - m)出口CFLAGS=“fpic”出口MYSQLINC=mysql_config——包括|sed - e' s / ^ - / / g '出口MYSQLLIBS=mysql_config——填詞cdKENT_SRC美元/ lib回聲' CFLAGS =“- fpic”> . . /公司/ localEnvironment。可使清潔使cd。。/ jkOwnLib使清潔#安裝生物:DB:: BigFilecpanm——不是生物:Perl cpanm——不是生物::DB:: BigFile

創建一個掛載點來存儲在雲存儲任何額外的文件。看到磚文件係統(DBFS)是什麼?。腳本中的值替換為你的掛載點。

保存GERP分數權貴在掛載點。

cd<掛載點> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/gerp_conservation_scores.homo_sapiens.GRCh38.bw

如果需要,保存原始序列的掛載點。

cd<掛載點> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz.fai wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz.gzi

如果需要,保存在掛載點PhyloCSF數據庫。

cd<掛載點> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/loftee.sql.gz gunzip loftee.sql.gz

VEP管道運行時,提供相應的額外選項。

——dir_plugins / opt / vep /插件,插件LoF loftee_path: / opt / vep /插件/ loftee gerp_bigwig: <掛載點> / gerp_conservation_scores.homo_sapiens.GRCh38.bw human_ancestor_fa: <掛載點> / human_ancestor.fa.gz conservation_file: <掛載點> / loftee.sql