介紹
三角洲湖是一個開源項目,使建立一個Lakehouse架構的基礎上數據的湖泊。三角洲湖提供ACID事務、可擴展的元數據處理和統一流媒體和批處理數據處理的現有數據湖泊。
對於一個快速概述和三角洲湖的好處,看這個YouTube視頻(3分鍾)。
具體來說,三角洲湖提供:
ACID事務火花:可序列化的隔離級別確保讀者永遠見不一致的數據。
可擴展的元數據處理:利用火花分布式處理能力來處理所有數十億的pb級別的元數據表文件自在。
執行模式:自動處理模式的變化,防止插入在攝入的不良記錄。
時間旅行:數據版本控製使回滾,全部曆史審計跟蹤,可再生的機器學習實驗。
插入和刪除:支持合並,更新和刪除操作,使複雜用例變更數據獲取、slowly-changing-dimension (SCD)操作,流插入,等等。
三角洲湖的總體介紹和演示,看這個YouTube視頻(51分鍾)。
高性能引擎優化讓δ湖操作,支持多種工作負載從大規模ETL處理特別的交互式查詢。達美航空引擎的信息,請參閱優化。
快速入門
湖三角洲快速入門的概述與三角洲湖的基礎知識。的快速入門顯示了如何將數據加載到一個三角洲表,修改表,看表,顯示表的曆史,和優化表。
磚的筆記本,證明這些特性,明白了介紹性的筆記本。
嚐試三角洲湖,明白了注冊數據磚。
關鍵任務
下麵的列表提供了常見三角洲湖任務文檔的鏈接。
創建一個增量表:快速啟動,批量數據任務的一部分
加載和數據寫入三角洲湖表:
與複製到
從三角洲表讀取數據:快速啟動,批量數據任務的一部分,作為流的一部分
優化一個增量表:快速啟動,本包裝的一部分,作為z值的一部分,文件大小調整的一部分
顯示一個三角洲的曆史表:快速啟動,作為數據公用事業的一部分
清理三角洲表快照(真空):快速啟動,作為數據公用事業的一部分
工作與δ表列:
與三角洲表版本:
查詢三角洲的一個早期版本表(時間旅行):快速啟動,批量數據任務的一部分
與三角洲表元數據: