預包裝的VEP注釋管道

重要的

這個文檔已經退休了,可能不會被更新。產品、服務或技術中提到的這些內容不再支持。

磚基因組學的運行時已被棄用。開源的等價物,看到回購genomics-pipelines和發光。生物信息學庫是運行時的一部分被釋放集裝箱碼頭工人,可從ProjectGlow Dockerhub頁麵。

關於磚運行時棄用策略的更多信息和時間表,看看所有支持的磚運行時版本。

設置

運行VEP(96年發布)作為一個磚的工作。

參考基因組

您必須配置參考基因組和記錄使用環境變量。使用GRCh37合並運用RefSeq成績單,設置環境變量:

             refGenomeId=grch37_merged_vep_96
            

的refGenomeId列出所有成對的參考基因組和轉錄:

	GRCh37	GRCh38
運用	`grch37_vep_96`	`grch38_vep_96`
RefSeq	`grch37_refseq_vep_96`	`grch38_refseq_vep_96`
合並後的	`grch37_merged_vep_96`	`grch38_merged_vep_96`

參數

管道接受一個參數,控製其行為的數量。導入筆記本之後,它作為一個工作任務,設置這些參數所有運行或每次運行。

參數	默認的	描述
inputVcf	n /一個	已文件的路徑和VEP注釋。
輸出	n /一個	路徑管道輸出應該寫。
replayMode	跳過	之一: `跳過`:如果已經存在,輸出階段跳過。 `覆蓋`:現有的輸出被刪除。
exportVCF	假	如果這是真的,管道寫結果VCF和三角洲湖。
extraVepOptions	`——一切——最小——allele_number——叉4`	額外的命令行選項傳遞給VEP。管道和設置一些選項不能覆蓋:`——組裝`,`——緩存`,`——dir_cache`,`——fasta`,`- - -格式`,`——合並`,`——no_stats`,`——離線`,`——output_file`,`——refseq`,`——已`。看到所有可能的選項(VEP網站)(VEP網站)。

LOFTEE

使用插件擴展運行VEP、過濾或操縱VEP輸出。設置LOFTEE使用以下指令根據所需的參考基因組。

grch37

創建一個LOFTEE集群使用一個init腳本。

              # ! / bin / bashDIR_VEP_PLUGINS=mkdir - p / opt / vep /插件DIR_VEP_PLUGINS美元cdDIR_VEP_PLUGINS美元回聲出口采用PERL5LIB=美元$ PERL5LIB:DIR_VEP_PLUGINS美元/ loftee > > /磚/ / conf / spark-env火花。sh git克隆——深度1——主分支https://github.com/konradjk/loftee.git
             

創建一個掛載點來存儲在雲存儲額外的文件。看到磚文件係統(DBFS)是什麼?。腳本中的值替換為你的掛載點。

如果需要,保存原始序列的掛載點。

              cd<掛載點> wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz.fai wget https://s3.amazonaws.com/bcbio_nextgen/human_ancestor.fa.gz.gzi
             

如果需要,保存在掛載點PhyloCSF數據庫。

              cd<掛載點> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh37/phylocsf_gerp.sql.gz gunzip phylocsf_gerp.sql.gz
             

VEP管道運行時,提供相應的額外選項。

              ——dir_plugins / opt / vep /插件,插件LoF loftee_path: / opt / vep /插件/ loftee human_ancestor_fa: <掛載點> / human_ancestor.fa.gz conservation_file: <掛載點> / phylocsf_gerp.sql
             

grch38

創建一個可以解析權貴LOFTEE集群文件使用init腳本。

              # ! / bin / bash#下載LOFTEEDIR_VEP_PLUGINS=mkdir - p / opt / vep /插件DIR_VEP_PLUGINS美元cdDIR_VEP_PLUGINS美元回聲出口采用PERL5LIB=美元$ PERL5LIB:DIR_VEP_PLUGINS美元/ loftee > > /磚/ / conf / spark-env火花。sh git克隆——深度1——分支grch38 https://github.com/konradjk/loftee.git肯特#下載源代碼樹mkdir - p / tmp / bigfilecd/ tmp / bigfile wget https://github.com/ucscGenomeBrowser/kent/archive/v335_base.tar.gz焦油xzf v335_base.tar.gz#構建肯特源出口KENT_SRC=$ PWD肯特- 335 _base / src出口MACHTYPE=$ (uname - m)出口CFLAGS=“fpic”出口MYSQLINC=”mysql_config——包括|sed - e' s / ^ - / / g '”出口MYSQLLIBS=”mysql_config——填詞”cdKENT_SRC美元/ lib回聲' CFLAGS =“- fpic”> . . /公司/ localEnvironment。可使清潔使cd。。/ jkOwnLib使清潔#安裝生物:DB:: BigFilecpanm——不是生物:Perl cpanm——不是生物::DB:: BigFile
             

創建一個掛載點來存儲在雲存儲任何額外的文件。看到磚文件係統(DBFS)是什麼?。腳本中的值替換為你的掛載點。

保存GERP分數權貴在掛載點。

              cd<掛載點> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/gerp_conservation_scores.homo_sapiens.GRCh38.bw
             

如果需要,保存原始序列的掛載點。

              cd<掛載點> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz.fai wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/human_ancestor.fa.gz.gzi
             

如果需要,保存在掛載點PhyloCSF數據庫。

              cd<掛載點> wget https://personal.broadinstitute.org/konradk/loftee_data/GRCh38/loftee.sql.gz gunzip loftee.sql.gz
             

VEP管道運行時,提供相應的額外選項。

              ——dir_plugins / opt / vep /插件,插件LoF loftee_path: / opt / vep /插件/ loftee gerp_bigwig: <掛載點> / gerp_conservation_scores.homo_sapiens.GRCh38.bw human_ancestor_fa: <掛載點> / human_ancestor.fa.gz conservation_file: <掛載點> / loftee.sql