數據工程與磚
課程描述
數據專業人員各界將受益於這種全麵介紹磚Lakehouse平台,直接支持的組件將ETL管道投產。Beplay体育安卓版本您將利用SQL和Python來定義和進度管道逐步過程新數據來自各種數據源的分析應用程序和Lakehouse儀表板。本課程提供實踐指導磚數據科學與工程工作區,磚SQL,三角洲生活表,磚回購,磚任務編排和統一的目錄。
本課程將幫助你把磚考試注冊數據工程師助理。
持續時間
2天或4天的一半
目標
- 利用磚Lakehouse平台執行核心數據管道發展的責任Beplay体育安卓版本
- 使用SQL和Python編寫生產數據管道來提取、轉換和加載數據到Lakehouse表和視圖
- 使用Databricks-native簡化數據攝入和增量更改傳播特性和語法,包括三角洲生活表
- 編排生產管道提供新鮮特別的結果分析和儀表盤
先決條件
- SQL查詢語法的基本知識,包括使用選擇、編寫查詢,集團,秩序,限製並加入
- 基本知識的SQL DDL語句來創建、修改和刪除數據庫和表
- SQL DML語句的基本知識,包括刪除、插入、更新和合並
- 經驗或知識工程實踐的數據在雲平台上,包括雲特性,比如虛擬機,對象存儲、身份管理和metastoresBeplay体育安卓版本
- 基本熟悉Python變量、函數和控製流(首選)
大綱
第一天
- 三角洲湖
- 關係的實體在磚
- ETL和火花SQL
- 足夠的Python火花SQL
- 增量數據處理結構化流和自動加載程序
第二天
- 大獎章lakehouse架構的數據
- 三角洲生活表
- 任務編排與磚的工作
- 磚的SQL
- lakehouse管理權限
- Productionizing儀表板和磚的SQL查詢