磚的概念
本文介紹了基本概念的集合,你需要理解為了有效地使用磚。
賬戶和工作區
在磚,工作空間一磚在雲中部署的功能作為你的團隊的環境中訪問數據磚資產。您的組織可以選擇多個工作區或隻有一個,根據其需求。
一個磚賬戶代表一個單一的實體,可以包括多個工作區。賬戶支持統一目錄可以用來管理用戶及其訪問數據集中所有的工作區。計費和支持也在賬戶層麵處理。
身份驗證和授權
本節描述概念,你需要知道什麼時候磚身份和訪問數據磚資產管理。
用戶
一個獨特的個人誰有權訪問係統。用戶身份是由電子郵件地址。看到管理用戶。
服務主體
服務標識的使用工作,自動化工具,和腳本等係統,應用程序和CI / CD平台。Beplay体育安卓版本服務主體由一個應用程序ID。明白了管理服務主體。
集團
身份的集合。組織簡化身份管理,使其更容易分配進入工作區,數據,和其他可獲得的對象。磚的身份可以被指定為所有成員的組。看到管理組
訪問控製列表(ACL)
權限列表連接到工作區,集群,工作,表,或實驗。ACL指定哪些用戶或係統進程被授予訪問對象,以及允許操作的資產。每個條目在一個典型的ACL指定一個主體和一個操作。看到訪問控製
數據科學與工程
數據科學與工程援助數據科學家之間的協作工具,數據工程師,和數據分析師。本節描述的基本概念。
筆記本
一個基於web的接口來創建數據科學和機器學習工作流可以包含可運行命令,可視化,敘事文本。看到介紹磚筆記本。
指示板
一個接口,它提供了組織可視化。看到指示板。
圖書館
筆記本可用包的代碼或工作在集群上運行。磚運行時包含許多庫你可以添加自己的。
回購
一個文件夾的內容一起co-versioned通過同步到遠程Git存儲庫。磚回購與Git集成為您的項目提供源和版本控製。
實驗
的集合MLflow運行培訓機器學習模型。看到組織培訓與MLflow運行實驗。
數據管理
本節描述的對象保存數據上執行分析和反饋到機器學習算法。
磚文件係統(DBFS)
在一個blob存儲文件係統抽象層。它包含目錄,它可以包含文件(數據文件、庫和圖像),和其他目錄。DBFS和一些自動填充數據集,您可以用它來學習磚。看到磚文件係統(DBFS)是什麼?。
數據庫
數據對象的集合,如表或視圖和功能,這是有組織的,這樣就可以很容易地訪問、管理和更新。看到什麼是數據庫?
表
結構化數據的表示。你查詢表與Apache火花SQL和Apache火花api。看到一個表是什麼?
差值表
默認情況下,所有表中創建的磚是三角洲的表。基於增量表三角洲湖開源項目,一個框架,用於高性能酸表存儲在雲存儲對象。δ表存儲數據作為雲對象存儲上的文件和注冊表的目錄元數據中的metastore目錄和模式。
找到更多關於技術品牌δ。
Metastore
存儲所有的組件的結構信息數據倉庫中的各種表和分區包括列和列類型信息,必要的序列化器和反序列化器來讀取和寫入數據,和相應的文件數據存儲的地方。看到什麼是metastore ?
每一個磚部署都有中央蜂巢metastore所有集群持續訪問表的元數據。您還可以選擇使用一個現有的外部蜂巢metastore。
可視化
運行一個查詢的結果的圖形化表示。看到可視化。
計算管理
本節描述概念,你需要知道在磚運行計算。
集群
一組計算資源和配置上運行筆記本和工作。有兩種類型的集群:通用和工作。看到集群。
你創建一個通用的集群使用UI, CLI或REST API。您可以手動終止和重啟一個通用集群。多個用戶可以分享這種集群協作互動分析。beplay娱乐ios
磚作業調度器的創建集群工作當您運行一個工作在一個新工作的集群當工作完成後,終止集群。你不能重新啟動集群的工作。
池
一組空閑,隨時可用的實例集群開始和伸縮時間減少。當連接池時,一個集群節點分配司機和工人從池中。看到創建一個池。
如果池中沒有足夠的空閑資源,以適應集群的請求,池擴大供應商分配新實例的實例。集群連接終止時,它使用實例返回到池中,由不同的集群可以重用。
磚運行時
的核心組件集運行在集群由磚。看到磚運行時. *磚有以下運行時:
工作流
框架開發和運行數據處理管道:
創建、運行和管理數據磚的工作:非交互式機製運行一個筆記本或圖書館立即或在預定的基礎上。
δ生活是什麼表?:一個框架為構建可靠、可維護、可測試的數據處理管道。
看到磚工作流程是什麼?。
機器學習
機器學習磚是一個集成的端到端環境將為實驗跟蹤管理服務,模型訓練、功能開發和管理,功能和服務模式。
實驗
主要跟蹤機器學習模型發展組織單位。看到組織培訓與MLflow運行實驗。實驗組織、顯示和控製個人的訪問記錄運行模型訓練的代碼。
特色商店
一個集中的存儲庫的功能。看到磚特性的商店功能存儲使特性在整個組織中分享和發現,也確保了相同的特性計算代碼用於培訓和推理模型。
模型和模型注冊
一個訓練有素的機器學習或深度學習模型已經注冊模型注冊。