描述
在本課程中,您將探索Apache Spark和Delta Lake在Databricks上的基礎知識。您將學習Spark的架構組件,DataFrame和Structured Streaming api,以及Delta Lake如何改進您的數據管道。最後,您將執行流查詢來處理流數據,並了解使用Delta Lake的優勢。
本課程將為你準備Databricks Apache Spark認證助理開發人員考試.
持續時間
2個全天或4個半天
目標
- 定義Spark的架構組件
- 描述如何在Spark中轉換、執行和優化dataframe
- 應用DataFrame API在Spark中探索、預處理、連接和攝取數據
- 應用結構化流API對流數據進行分析
- 使用Delta Lake來提高數據管道的質量和性能
先決條件
- 完成數據科學與數據工程Python入門,或熟悉Python和基本編程概念,包括數據類型、列表、字典、變量、函數、循環、條件語句、異常處理、訪問類和使用第三方庫
- 基本的SQL知識,包括編寫查詢使用
選擇,其中,分組,順序,限製,並加入
大綱
第一天
- 火花概述
- Databricks平Beplay体育安卓版本台概述
- 火花SQL
- DataFrame讀取器、寫入器、轉換和聚合
- 日期時間
- 複雜類型
第二天
- 用戶定義函數(udf)和向量化udf
- 引發內部
- 查詢優化
- 分區
- 流API
- 三角洲湖
即將舉行的公開課程
如有任何疑問,請向我們查詢常見問題頁麵。