Lakehouse體係結構模式的興起建立在技術創新的基礎上,使數據湖能夠支持ACID事務和傳統數據倉庫工作負載的其他特性。加入我們的五部分學習係列開始與三角洲湖。本係列技術演講將帶您了解Delta Lake (Apache Spark)的技術基礎、構建高度可擴展的數據管道、處理合並流+批處理工作負載、使用Delta Lake和MLflow為數據科學提供動力,甚至還將與Delta Lake工程師一起了解其起源。
許多研討會包括筆記本和幻燈片鏈接供您下載。
如果你想跟我來,請注冊您的免費社區版帳戶或下載三角洲湖圖書館.
Apache Spark是大數據的主要處理框架。Delta Lake為Spark增加了可靠性,因此您的分析和機器學習計劃可以隨時訪問高質量、可靠的數據。本次網絡研討會涵蓋了使用Delta Lake來提高Spark環境的數據可靠性。
一個通用的數據工程管道架構使用對應於不同質量級別的表,逐步向數據添加結構:數據攝入(“青銅”表)、轉換/特性工程(“銀”表)和機器學習訓練或預測(“金”表)。結合起來,我們將這些表稱為“多跳”體係結構。它允許數據工程師建立一個管道,從原始數據開始,作為“單一的真相來源”,一切都從它流動。
Lambda體係結構是一種流行的技術,其中記錄由批處理係統和流係統並行處理。然後在查詢期間對結果進行組合,以提供完整的答案。隨著Delta Lake的出現,我們看到許多客戶都采用了簡單的連續數據流模型來處理到達的數據。beplay体育app下载地址我們稱這種架構為“三角洲架構”。在本部分中,我們將討論采用連續數據流模型的主要瓶頸以及Delta架構如何解決這些問題。
在規劃數據科學計劃時,必須對整個數據分析領域有一個整體的看法。數據工程是幫助及時提供可靠、高質量數據的數據科學的關鍵推動者。Delta Lake是一個開源存儲層,它為數據湖帶來了可靠性,可以幫助您將數據可靠性提高到一個新的水平。
開發人員倡導者Denny Lee采訪了Databricks的軟件工程師Burak Yavuz,了解Delta Lake團隊的決策製定過程,以及他們為什麼設計、構建和實現今天的架構。了解團隊麵臨的技術挑戰,這些挑戰是如何解決的,並了解未來的計劃。