跳轉到主要內容

先進的數據工程與磚

描述

在本課程中,學生將他們現有的知識基礎的Apache火花,結構化流和三角洲湖lakehouse解鎖的全部潛力數據利用的工具套件提供的磚。本課程重強調設計支持增量數據處理,使係統優化,不斷攝取和分析日益增長的數據。通過設計工作量,利用內置平台優化,數據工程師可以減少代碼維護的負擔,隨叫隨到的緊急情況,並迅Beplay体育安卓版本速適應新要求以最小的生產代碼重構或停機時間。


在這門課的主題應該掌握在嚐試之前磚注冊數據工程師專業考試

持續時間

2天或4天的一半

目標

  • 設計數據庫和管道優化磚Lakehouse平台Beplay体育安卓版本
  • 實現高效的增量數據處理驗證和豐富數據驅動業務決策和應用程序
  • 利用Databricks-native功能用於管理對敏感數據的訪問和履行right-to-be-forgotten請求
  • 管理錯誤故障排除、代碼推廣任務編排監控使用磚工具和生產工作

先決條件

這些是艱難的先決條件為我們的合作夥伴——請不要注冊這門課,除非你滿足大多數需求:

  • 體驗使用PySpark api執行先進的數據轉換
  • 熟悉用Python實現類
  • 經驗在生產中使用SQL數據倉庫或數據湖的實現
  • 工作經驗在磚筆記本和配置集群
  • 熟悉用SQL創建和操縱三角洲湖表中的數據
  • 能夠使用火花結構化流逐步從三角洲表讀取

大綱

第一天

  • Lakehouse架構
  • 優化數據存儲
  • 理解三角洲湖事務
  • 三角洲湖與樂觀並發隔離
  • 流的設計模式
  • 克隆的發展和數據備份
  • 自動加載器和銅攝入模式
  • 流執行重複數據刪除技術和質量
  • 緩慢變化維度
  • 流連接和有狀態性

第二天

  • 存儲和物化視圖
  • 存儲數據安全
  • PII授予訪問權限
  • Lakehouse刪除數據
  • 編製和多任務調度工作
  • 監視、記錄和處理錯誤
  • 促進與磚回購的代碼
  • 編程平台交互(磚CLI和RBeplay体育安卓版本EST API)
  • 管理成本和延遲與流媒體工作負載
Baidu
map