在Databricks上優化Apache Spark™
在Databricks上優化Apache Spark™
描述
在本課程中,您將探索代表Apache Spark應用程序中絕大多數性能問題的五個關鍵問題:傾斜、溢出、shuffle、存儲和序列化。通過基於100 GB到1+ TB數據集的示例,您將使用Spark UI調查和診斷瓶頸來源,並學習有效的緩解策略。您還將發現Spark 3中引入的新功能,這些功能可以自動解決常見的性能問題。最後,您將學習如何根據特定的團隊需求和關注點設計和配置集群以獲得最佳性能。
持續時間
2個全天或4個半天
目標
- 闡明如何緩解Spark應用程序中最常見的五個性能問題,以實現更好的應用程序性能
- 總結與數據攝取相關的最常見的性能問題,以及如何緩解這些問題
- 闡明Spark 3中的新功能。x可以用來緩解Spark應用程序中的性能問題
- 根據不同的任務需求,配置Spark集群以獲得最佳性能
先決條件
- 有開發Apache Spark應用程序的實際經驗(6個月以上)
- 有Python或Scala的中級經驗
物流
大綱
第一天
- Spark架構和Spark UI的回顧
- 斜
- 泄漏
- 洗牌
- 存儲
- 序列化
第二天
- 攝入基本知識
- 謂詞下推
- 磁盤分區
- z值
- 用桶裝
- 使用自適應查詢執行(AQE)進行優化
- 為高性能設計和配置集群
即將舉行的公開課程
如有任何疑問,請向我們查詢常見問題頁麵。