磚的概念

本文介紹了基本概念的集合,你需要理解為了有效地使用磚。

賬戶和工作區

在磚,工作空間一磚在雲中部署的功能作為你的團隊的環境中訪問數據磚資產。您的組織可以選擇多個工作區或隻有一個,根據其需求。

一個磚賬戶代表一個單一的實體,可以包括多個工作區。賬戶支持統一目錄可以用來管理用戶及其訪問數據集中所有的工作區。計費和支持也在賬戶層麵處理。

計費:磚單位(DBUs)

根據磚磚賬單的單位(DBUs),單位處理能力每小時基於VM實例類型。

看到磚在AWS定價估計量和計費使用使用帳戶控製台視圖。

身份驗證和授權

本節描述概念,你需要知道什麼時候磚身份和訪問數據磚資產管理。

用戶

一個獨特的個人誰有權訪問係統。用戶身份是由電子郵件地址。看到管理用戶。

服務主體

服務標識的使用工作,自動化工具,和腳本等係統,應用程序和CI / CD平台。Beplay体育安卓版本服務主體由一個應用程序ID。明白了管理服務主體。

集團

身份的集合。組織簡化身份管理,使其更容易分配進入工作區,數據,和其他可獲得的對象。磚的身份可以被指定為所有成員的組。看到管理組

訪問控製列表(ACL)

權限列表連接到工作區,集群,工作,表,或實驗。ACL指定哪些用戶或係統進程被授予訪問對象,以及允許操作的資產。每個條目在一個典型的ACL指定一個主體和一個操作。看到訪問控製

個人訪問令牌

一個不透明的字符串是用於驗證的REST API和工具技術合作夥伴連接到SQL倉庫。看到磚個人訪問令牌。

用戶界麵

磚UI是一個圖形化的界麵相互作用的特性,如工作區文件夾及其包含的對象,數據對象和計算資源。

數據科學與工程

數據科學與工程援助數據科學家之間的協作工具,數據工程師,和數據分析師。本節描述的基本概念。

工作空間

一個工作空間是一個環境來訪問你所有的磚的資產。工作空間組織對象(筆記本、圖書館、儀表板和實驗)文件夾並提供訪問數據對象和計算資源。

筆記本

一個基於web的接口來創建數據科學和機器學習工作流可以包含可運行命令,可視化,敘事文本。看到介紹磚筆記本。

指示板

一個接口,它提供了組織可視化。看到指示板。

圖書館

筆記本可用包的代碼或工作在集群上運行。磚運行時包含許多庫你可以添加自己的。

回購

一個文件夾的內容一起co-versioned通過同步到遠程Git存儲庫。磚回購與Git集成為您的項目提供源和版本控製。

實驗

的集合MLflow運行培訓機器學習模型。看到組織培訓與MLflow運行實驗。

磚的接口

本節描述磚支持的接口,除了UI,訪問你的資產:API和命令行(CLI)。

REST API

有三個版本的REST API:2.1,2.0,1.2。磚建議REST API 2.1和2.0,支持大多數1.2 REST API的功能。

CLI

一個開源項目托管GitHub。CLI的頂部REST API(最新)。

數據管理

本節描述的對象保存數據上執行分析和反饋到機器學習算法。

磚文件係統(DBFS)

在一個blob存儲文件係統抽象層。它包含目錄,它可以包含文件(數據文件、庫和圖像),和其他目錄。DBFS和一些自動填充數據集,您可以用它來學習磚。看到磚文件係統(DBFS)是什麼?。

數據庫

數據對象的集合,如表或視圖和功能,這是有組織的,這樣就可以很容易地訪問、管理和更新。看到什麼是數據庫?

表

結構化數據的表示。你查詢表與Apache火花SQL和Apache火花api。看到一個表是什麼?

差值表

默認情況下,所有表中創建的磚是三角洲的表。基於增量表三角洲湖開源項目,一個框架,用於高性能酸表存儲在雲存儲對象。δ表存儲數據作為雲對象存儲上的文件和注冊表的目錄元數據中的metastore目錄和模式。

找到更多關於技術品牌δ。

Metastore

存儲所有的組件的結構信息數據倉庫中的各種表和分區包括列和列類型信息,必要的序列化器和反序列化器來讀取和寫入數據,和相應的文件數據存儲的地方。看到什麼是metastore ?

每一個磚部署都有中央蜂巢metastore所有集群持續訪問表的元數據。您還可以選擇使用一個現有的外部蜂巢metastore。

可視化

運行一個查詢的結果的圖形化表示。看到可視化。

計算管理

本節描述概念,你需要知道在磚運行計算。

集群

一組計算資源和配置上運行筆記本和工作。有兩種類型的集群:通用和工作。看到集群。

你創建一個通用的集群使用UI, CLI或REST API。您可以手動終止和重啟一個通用集群。多個用戶可以分享這種集群協作互動分析。beplay娱乐ios
磚作業調度器的創建集群工作當您運行一個工作在一個新工作的集群當工作完成後,終止集群。你不能重新啟動集群的工作。

池

一組空閑,隨時可用的實例集群開始和伸縮時間減少。當連接池時,一個集群節點分配司機和工人從池中。看到創建一個池。

如果池中沒有足夠的空閑資源,以適應集群的請求,池擴大供應商分配新實例的實例。集群連接終止時,它使用實例返回到池中,由不同的集群可以重用。

磚運行時

的核心組件集運行在集群由磚。看到磚運行時. *磚有以下運行時:

磚運行時包括Apache火花,還添加了許多組件和更新,大大提高可用性、性能和安全的大數據分析。
磚運行時機器學習機器學習是建立在磚運行時和提供預先構建的基礎設施,與所有的功能集成磚工作區。它包含多個流行的庫,包括TensorFlow Keras PyTorch, XGBoost。
光磚是開源的Apache的磚包裝引發運行時。它提供了一個運行時選擇工作,不需要先進的性能,可靠性,或自動定量磚運行時提供的好處。您可以選擇磚光隻有當你創建一個集群運行JAR, Python,或spark-submit工作;你不能選擇這對集群運行時上運行交互式或筆記本的工作負載。

工作流

框架開發和運行數據處理管道:

創建、運行和管理數據磚的工作:非交互式機製運行一個筆記本或圖書館立即或在預定的基礎上。
δ生活是什麼表?:一個框架為構建可靠、可維護、可測試的數據處理管道。

看到磚工作流程是什麼?。

工作負載

磚識別兩種類型的工作負載的不同定價方案:數據工程(工作)和數據分析(通用)。

工程數據(自動)工作負載運行集群工作這對每個工作負載磚作業調度器的創建。
數據分析(互動)工作負載運行在一個通用的集群。磚內互動工作負載通常運行命令筆記本。然而,運行一個工作在一個現有的通用集群也被視為一個交互式工作負載。

執行上下文

read-eval-print循環的狀態(REPL)環境為每個受支持的編程語言。語言支持Python, R, Scala和SQL。

機器學習

機器學習磚是一個集成的端到端環境將為實驗跟蹤管理服務,模型訓練、功能開發和管理,功能和服務模式。

實驗

主要跟蹤機器學習模型發展組織單位。看到組織培訓與MLflow運行實驗。實驗組織、顯示和控製個人的訪問記錄運行模型訓練的代碼。

特色商店

一個集中的存儲庫的功能。看到磚特性的商店功能存儲使特性在整個組織中分享和發現,也確保了相同的特性計算代碼用於培訓和推理模型。

模型和模型注冊

一個訓練有素的機器學習或深度學習模型已經注冊模型注冊。

SQL

SQL REST API

一個接口,在SQL對象允許您自動化任務。看到磚的SQL API參考。

指示板

數據可視化的展示和評論。看到磚SQL的儀表盤。

SQL查詢

本節描述概念,你需要知道在磚運行SQL查詢。

查詢:一個有效的SQL語句。
SQL倉庫:計算資源上執行SQL查詢。
查詢曆史:執行的查詢的列表及其性能特征。