磚的概念
本文介紹了為了有效地使用Databricks,您需要了解的一組基本概念。
有些概念是Databricks的通用概念,而另一些則是特定於您正在使用的基於人物的Databricks環境:
數據科學與工程“,
磚機器學習
一般概念
本節描述適用於所有Databricks基於人物的環境的概念和術語。
賬戶和工作區
在磚工作空間有兩個含義:
雲中的Databricks部署,作為團隊用於訪問所有Databricks資產的統一環境。您的組織可以選擇擁有多個工作區或隻有一個:這取決於您的需要。
Databricks數據科學與工程和Databricks機器學習基於人物的環境的UI。例如,當我們談到“工作空間瀏覽器”時,我們談論的是UI,它允許您在數據科學與工程和Databricks機器學習環境中瀏覽筆記本、庫和其他文件。
一個磚賬戶表示單次訂閱,用於計費和支持;它可以包括多個工作區。
數據科學與工程“,
數據科學與工程“,是經典的Databricks環境,用於數據科學家、數據工程師和數據分析師之間的協作。本節描述為了在Databricks數據科學與工程環境中有效地工作,您需要了解的基本概念。
工作空間
一個工作空間是一個訪問所有Databricks資產的環境。工作區將對象(筆記本、庫、儀表板和實驗)組織到文件夾並提供對數據對象和計算資源的訪問。
本節描述Databricks工作空間文件夾中包含的對象。
包含可運行命令、可視化和敘述文本的基於web的文檔界麵。
提供對可視化的有組織訪問的接口。
可用於運行在集群上的筆記本或作業的代碼包。Databricks運行時包含許多庫,您可以添加自己的庫。
通過將內容同步到遠程Git存儲庫,對其內容進行共同版本控製的文件夾。
的集合MLflow運行用於訓練機器學習模型。
數據科學與工程接口
本節描述Databricks支持的訪問資產的接口:UI和API。
用戶界麵
Databricks UI為工作空間文件夾及其包含的對象、數據對象和計算資源提供了一個易於使用的圖形界麵。
REST API有三個版本:2.1,2.0,1.2.REST API 2.1和2.0支持REST API 1.2的大部分功能和附加功能,是首選的。
數據科學與工程中的數據管理“,
本節描述保存數據的對象,您可以對其執行分析並將其輸入機器學習算法。
在blob存儲上的文件係統抽象層。它包含目錄,其中可以包含文件(數據文件、庫和映像)和其他目錄。DBFS會自動填充一些數據集可以用來學習數據庫。
一種經過組織的信息集合,便於訪問、管理和更新。
結構化數據的表示形式。使用Apache Spark SQL和Apache Spark api查詢表。
存儲數據倉庫中各種表和分區的所有結構信息的組件,包括列和列類型信息、讀寫數據所需的序列化器和反序列化器,以及存儲數據的相應文件。每個Databricks部署都有一個中央Hive metastore,所有集群都可以訪問它來持久化表元數據。您還可以選擇使用現有的外部蜂巢metastore.
數據科學與工程中的計算管理“,
本節描述在Databricks數據科學與工程中運行計算時需要了解的概念。
運行筆記本和作業的一組計算資源和配置。集群有兩種類型:通用集群和作業集群。
你創建一個通用的集群使用UI、CLI或REST API。對於通用集群,可以手動終止和重啟。多個用戶可以共享這樣的集群來進行協作交互分析。beplay娱乐ios
Databricks作業調度器創建的集群工作當你運行工作在一個新工作的集群並在任務完成時終止集群。你不能重新啟動作業集群。
一組空閑的、隨時可用的實例,可以減少集群啟動和自動伸縮時間。當附加到池時,集群從池中分配它的驅動程序和工作節點。如果池沒有足夠的空閑資源來容納集群的請求,則池通過從實例提供程序分配新實例來擴展。當一個附加的集群終止時,它使用的實例被返回到池中,並可以被另一個集群重用。
在Databricks管理的集群上運行的一組核心組件。Databricks提供了幾種類型的運行時:
磚運行時包括Apache Spark,但也增加了許多組件和更新,大大提高了大數據分析的可用性、性能和安全性。
用於機器學習的Databricks運行時是在Databricks運行時上構建的,為機器學習和數據科學提供了一個現成的環境。它包含多個流行的庫,包括TensorFlow、Keras、PyTorch和XGBoost。
Databricks運行時用於基因組學是Databricks運行時的一個優化版本,可用於處理基因組和生物醫學數據。
用於開發和運行數據處理管道的框架:
工作負載
Databricks確定了兩種不同類型的工作負載定價方案:數據工程(作業)和數據分析(通用)。
工程數據(自動化的)工作負載繼續運行集群工作Databricks作業調度器為每個工作負載創建。
數據分析(交互式)工作負載運行在通用的集群.交互式工作負載通常在Databricks中運行命令筆記本.然而,運行一個工作在一個現有的通用集群也被視為交互式工作負載。
執行上下文
一個州REPL支持的每種編程語言的環境。支持的語言有Python、R、Scala和SQL。
磚機器學習
的Databricks機器學習環境從數據科學與工程工作區中提供的特性開始,並添加功能。重要的概念包括:
本單位主要負責跟蹤機器學習模型的開發。實驗組織、展示和控製對個體的訪問記錄模型訓練代碼的運行情況.
一個集中的功能存儲庫。Databricks Feature Store支持跨組織的特性共享和發現,還確保使用相同的特性計算代碼進行模型訓練和推斷。
一個訓練過的機器學習或深度學習模型已經登記在模型注冊.