Databricks Runtime 7.5 for Genomics(不支持)
Databricks於2020年12月發布了這張圖片。
Databricks Runtime 7.5 for Genomics是一個版本Databricks Runtime 7.5(不支持)針對基因組和生物醫學數據進行了優化。它是Databricks基因組學統一分析平台的一個組成部分。Beplay体育安卓版本
重要的
此文檔已退役,可能無法更新。本內容中提及的產品、服務或技術已不再受支持。
Databricks Genomics運行時已棄用。有關開放源碼的對等物,請參見repos Forgenomics-pipelines而且發光.作為運行時一部分的生物信息學庫已經作為Docker容器發布,它可以從ProjectGlow Dockerhub頁麵。
有關Databricks Runtime棄用策略和計劃的詳細信息,請參見支持Databricks運行時發布和支持計劃.
有關更多信息,包括創建Databricks用於基因組學集群的運行時的說明,請參見基因組學導遊.有關開發基因組學應用程序的更多信息,請參見基因組學導遊.
新功能
Databricks Runtime 7.5 for Genomics是在Databricks Runtime 7.5的基礎上構建的。有關Databricks Runtime 7.5中的新功能的信息,請參見Databricks Runtime 7.5(不支持)發行說明。
從冰雹矩陣表到火花數據幀的轉換
輝光現在有from_matrix_table
導入函數冰雹MatrixTables作為Spark DataFrames在Glow。看到_.
基於偏移量的熊貓線性回歸
Glow現在提供linear_regression
函數在Python中測試基因型和一個或多個表型之間的關聯(步驟2)GloWGR).這個功能比Glow快得多linear_regression_gwas函數(在25個表型上高達8x),並被設計為通過接受偏移量參數與第1步GloWGR的輸出無縫工作。協變量以及是否在擬合中包含截距也可以控製。
改進
硬呼叫選項的BGEN閱讀器
的BGEN讀者在輝光中現在接受有新的布爾值emitHardCalls
選項在讀取BGEN文件時生成樣本的硬調用。此選項設置為真正的
默認情況下。硬調用的概率閾值由新的hardCallThreshold
選項(默認= 0.9)。
聯合基因分型管道的改進
的聯合基因分型管道改進了目標區域文件,現在轉換為一個過濾器,可以下推到VCF數據源,在那裏可以利用表索引進行過濾。以前,範圍連接用於此目的。如果提供了目標區域文件(小於25個區域),並且輸入是表索引bgzip壓縮的vcf,這將提高攝取時間。此外,管道中使用的默認bin大小減少到5000。這一改變通過減少傾斜來加速變換,從而產生更快的管道。