Databricks Labs.

Databricks Labs是由該字段創建的項目
為了幫助客戶更快beplay体育app下载地址地將其用案例置於生產中!

起程拓殖集成

您可以使用DataBricks Terraform Provider使用靈活的強大的工具來管理Databricks工作區和相關的雲基礎架構。Databricks客beplay体育app下载地址戶正在使用Databricks Terraform Provider部署和管理群集和作業,提供Databricks工作區,並配置數據訪問。

DBX.

此工具在多個環境中簡化了作業啟動和部署過程。它還有助於打包您的項目並以版本化的方式將其交付給Databricks環境。以CLI-First方式設計,它建立在CI / CD管道內部和作為快速原型設計的本地工具的一部分。

速度

該項目的目的是提供用於操縱時間序列的API在Apache Spark的頂部。功能包括使用滯後時間值,滾動統計(平均值,AVG,SUM,COUNT等)的功能性,以及加入和下采樣和插值。這已經在TB的曆史數據中進行了測試。

其他的項目

縱傳

分析所有工作區的所有工作和集群,以便快速識別您可以在何處進行最大的性能提升和成本節約的調整。

了解更多→

jupyterlab集成

此包允許從本地運行的jupyterlab連接到遠程數據庫群集。

GitHub來源→
了解更多→

Splunk集成

Splunk的附加組裝,一個應用程序,允許Splunk Enterprise和Splunk Cloud用戶在Databrick中運行查詢並執行諸如運行筆記本和作業的操作。

GitHub來源→
了解更多→

悶燒

Smolder提供了用於加載EHR數據的Apache Spark™SQL數據源HL7v2.消息格式。此外,Smolder提供了可在Spark SQL DataFrame上使用的輔助功能,以解析HL7消息文本,並從消息中提取段,字段和子字段。

GitHub來源→
了解更多→

Geoscan.

基於的基於密度的空間聚類Apache Spark ML估算器六邊形等級空間指數

GitHub來源→
了解更多→

Automl Toolkit.

用於Apache Spark ML的工具包功能清理,功能重要性計算套件,信息增益選擇,分布式掃描,模型選擇和培訓,超參數優化和選擇,模型解釋性。

GitHub來源→
學到更多:
廣泛的Automl博客
Automl Toolkit博客默認貸款預測
家庭賽跑者管道API博客

特色工廠

這是一款基於PySpark的api加速器,提供優化、驗證和重複數據刪除功能,簡化和統一功能工程工作流程。

GitHub來源→
了解更多→

Dataframe規則引擎

Scala DataFrame數據質量期望驗證庫。

GitHub來源→

遷移

幫助客戶在Databricbeplay体育app下载地址ks工作區之間遷移偽像的工具。這允許客戶將配置和代碼工beplay体育app下载地址件導出為備份或作為不同工作區之間遷移的一部分。

GitHub來源→
學到更多:AWS|Azure.

databricks sync.

用於將源DatabRicks部署的工具與目標DataMroks部署同步。

GitHub來源→

蔡先生模板

庫克坦自動化DataMricks CI / CD管道創建和部署的項目模板。

GitHub來源→
了解更多→

數據生成器

為您的項目快速生成相關數據。Databreicks數據生成器可用於生成用於測試,POC和其他用途的大型模擬/合成數據集

GitHub來源→
了解更多→

甜點

湖泊房間中的元數據和運營指標分析的集中式三角洲事務日誌集合。

GitHub來源→
了解更多→

請注意,所有項目都在http://github.com/databrickslabs.該帳戶隻提供給您的探索,並且不被具有服務水平協議(sla)的Databricks正式支持。他們是按原樣提供的,我們不做任何形式的保證。請不要提交與使用這些項目所引起的任何問題有關的支持票。通過使用這個項目發現的任何問題都應該作為GitHub回購問題歸檔。他們將在時間允許的情況下進行審查,但沒有正式的sla提供支持。