介紹

三角洲湖是一個開源項目,使建立一個Lakehouse架構的基礎上數據的湖泊。三角洲湖提供ACID事務、可擴展的元數據處理和統一流媒體批處理數據處理的現有數據湖泊。

對於一個快速概述和三角洲湖的好處,看這個YouTube視頻(3分鍾)。

具體來說,三角洲湖提供:

  • ACID事務火花:可序列化的隔離級別確保讀者永遠見不一致的數據。

  • 可擴展的元數據處理:利用火花分布式處理能力來處理所有數十億的pb級別的元數據表文件自在。

  • 流媒體批處理統一:一個表在三角洲湖是一批表以及流源和下沉。流媒體數據攝取、批曆史回填,隻是工作的交互式查詢。

  • 執行模式:自動處理模式的變化,防止插入在攝入的不良記錄。

  • 時間旅行:數據版本控製使回滾,全部曆史審計跟蹤,可再生的機器學習實驗。

  • 插入刪除:支持合並,更新和刪除操作,使複雜用例變更數據獲取、slowly-changing-dimension (SCD)操作,流插入,等等。

三角洲湖的總體介紹和演示,看這個YouTube視頻(51分鍾)。

高性能引擎優化讓δ湖操作,支持多種工作負載從大規模ETL處理特別的交互式查詢。達美航空引擎的信息,請參閱優化

快速入門

湖三角洲快速入門的概述與三角洲湖的基礎知識。的快速入門顯示了如何將數據加載到一個三角洲表,修改表,看表,顯示表的曆史,和優化表。

磚的筆記本,證明這些特性,明白了介紹性的筆記本

嚐試三角洲湖,明白了注冊數據磚

關鍵任務

下麵的列表提供了常見三角洲湖任務文檔的鏈接。

資源

做事投入訓練在三角洲湖,看這個YouTube視頻(2小時42分鍾)。