描述
來自各行各業的數據專業人士將受益於對Databricks Lakehouse平台組件的全麵介紹,這些組件直接支持將ETL管道投入生產。Beplay体育安卓版本您將利用SQL和Python來定義和調度管道,以增量方式處理來自各種數據源的新數據,從而為Lakehouse中的分析應用程序和儀表板提供動力。本課程提供了Databricks數據科學與工程工作空間,Databricks SQL, Delta Live表,Databricks Repos, Databricks任務編排和Unity目錄的實踐指導。
持續時間
2個全天或4個半天
目標
- 利用Databricks Lakehouse平台執行數據管道開發的核Beplay体育安卓版本心職責
- 使用SQL和Python編寫生產數據管道,以提取、轉換數據並將數據加載到Lakehouse中的表和視圖中
- 使用databicks原生特性和語法(包括Delta Live Tables)簡化數據攝取和增量更改傳播
- 協調生產管道,為臨時分析和儀表板提供新的結果
先決條件
- 基本了解SQL查詢語法,包括使用SELECT、WHERE、GROUP BY、ORDER BY、LIMIT和JOIN編寫查詢
- 基本了解創建、修改和刪除數據庫和表的SQL DDL語句
- 基本了解SQL DML語句,包括DELETE, INSERT, UPDATE, MERGE
- 具有雲平台上的數據工程實踐經驗或知識,包括虛擬機、對象存儲、身份管理和亞存儲等雲特性Beplay体育安卓版本
- 熟悉Python變量、函數和控製流(優先)
物流
大綱
第一天
- 三角洲湖
- Databricks上的關係實體
- ETL與Spark SQL
- 隻需足夠的Python用於Spark SQL
- 增量數據處理與結構化流和自動加載器
第二天
- 數據湖屋中的勳章架構
- Delta活動表
- 使用Databricks Jobs進行任務編排
- 磚的SQL
- 管理湖屋的權限
- 在Databricks SQL上生產儀表板和查詢
即將舉行的公開課程
如有任何疑問,請向我們查詢常見問題頁麵。