Databricks Runtime 7.5 for Genomics(不支持)

Databricks於2020年12月發布了這張圖片。

Databricks Runtime 7.5 for Genomics是一個版本Databricks Runtime 7.5(不支持)針對基因組和生物醫學數據進行了優化。它是Databricks基因組學統一分析平台的一個組成部分。Beplay体育安卓版本

重要的

此文檔已退役,可能無法更新。本內容中提及的產品、服務或技術已不再受支持。

Databricks Genomics運行時已棄用。有關開放源碼的對等物,請參見repos Forgenomics-pipelines而且發光.作為運行時一部分的生物信息學庫已經作為Docker容器發布,它可以從ProjectGlow Dockerhub頁麵。

有關Databricks Runtime棄用策略和計劃的詳細信息,請參見支持Databricks運行時發布和支持計劃

有關更多信息,包括創建Databricks用於基因組學集群的運行時的說明,請參見基因組學導遊.有關開發基因組學應用程序的更多信息,請參見基因組學導遊

新功能

Databricks Runtime 7.5 for Genomics是在Databricks Runtime 7.5的基礎上構建的。有關Databricks Runtime 7.5中的新功能的信息,請參見Databricks Runtime 7.5(不支持)發行說明。

從冰雹矩陣表到火花數據幀的轉換

輝光現在有from_matrix_table導入函數冰雹MatrixTables作為Spark DataFrames在Glow。看到_

基於偏移量的熊貓線性回歸

Glow現在提供linear_regression函數在Python中測試基因型和一個或多個表型之間的關聯(步驟2)GloWGR).這個功能比Glow快得多linear_regression_gwas函數(在25個表型上高達8x),並被設計為通過接受偏移量參數與第1步GloWGR的輸出無縫工作。協變量以及是否在擬合中包含截距也可以控製。

改進

默認為快速VCF讀取器

在這個版本中,默認的VCF讀者設置為快速讀取器。要使用基於htsjdk的閱讀器,請設置火花配置io.projectglow.vcf.fastReaderEnabled

硬呼叫選項的BGEN閱讀器

BGEN讀者在輝光中現在接受有新的布爾值emitHardCalls選項在讀取BGEN文件時生成樣本的硬調用。此選項設置為真正的默認情況下。硬調用的概率閾值由新的hardCallThreshold選項(默認= 0.9)。

聯合基因分型管道的改進

聯合基因分型管道改進了目標區域文件,現在轉換為一個過濾器,可以下推到VCF數據源,在那裏可以利用表索引進行過濾。以前,範圍連接用於此目的。如果提供了目標區域文件(小於25個區域),並且輸入是表索引bgzip壓縮的vcf,這將提高攝取時間。此外,管道中使用的默認bin大小減少到5000。這一改變通過減少傾斜來加速變換,從而產生更快的管道。

以下部分列出了Databricks Runtime 7.5 for Genomics中包含的不同於Databricks Runtime 7.5的庫。

包裝庫

圖書館

版本

亞當

0.32.0

GATK

4.1.4.1

冰雹

0.2.58

Hadoop-bam

7.9.2

samtools

1.9

VEP

96