三角洲湖是什麼?

三角洲湖是提供了基礎的優化存儲層用於存儲數據和表數據磚Lakehouse平台。Beplay体育安卓版本三角洲湖是開源軟件擴展拚花和基於文件的事務日誌數據文件ACID事務和可擴展的元數據處理。三角洲湖與Apache火花api完全兼容,並開發與結構化流緊密集成,允許您輕鬆地使用一個複製的數據批處理和大規模流媒體業務和提供增量處理。

三角洲湖是默認為所有操作數據磚存儲格式。除非另有規定,所有表在磚三角洲表。磚最初三角洲湖協議,繼續積極開發開源項目貢獻。許多的優化和產品數據磚Lakehouse平台建立Apache火花和三角洲湖所提供的擔保。Beplay体育安卓版本優化數據磚上的更多信息,請參閱優化建議磚

關於三角洲湖SQL命令的信息,供參考三角洲湖語句

三角洲湖事務日誌有一個定義良好的開放的協議,它可以使用任何係統讀取日誌。看到三角洲事務日誌協議

開始使用三角洲湖

默認情況下所有表磚是三角洲的表上。無論你是使用Apache火花DataFrames或SQL,你會得到所有的好處三角洲湖僅僅通過保存數據到lakehouse默認設置。

等基本的三角洲湖操作的例子創建表,閱讀,寫作,和更新數據,請參閱教程:三角洲湖

磚有許多建議三角洲湖的最佳實踐

數據轉換和消化三角洲湖

磚提供了許多產品的加速和簡化lakehouse裝載數據。

攝入選項的完整列表,請參閱數據加載到磚Lakehouse

更新和修改三角洲湖表

原子事務與三角洲湖為更新數據和元數據提供許多選項。磚建議你避免直接與交互的數據和事務日誌文件在三角洲湖文件目錄,以避免損壞你的表。

增量和三角洲湖流的工作負載

三角洲湖為結構化流數據磚進行了優化。三角洲生活表簡化基礎設施進行功能擴展本地部署,增強擴展和管理數據依賴關係。

查詢以前版本的一個表

每個寫三角洲表創建一個新的表版本。您可以使用事務日誌審查修改表和查詢以前的表版本。看到工作與三角洲湖表的曆史

三角洲湖模式改進

三角洲湖驗證模式寫,確保所有數據寫入表中匹配的要求你設置。

與三角洲湖管理文件和索引數據

磚集許多三角洲湖的默認參數,影響數據文件的大小和數量的表中保留曆史版本。三角洲湖使用元數據解析和物理數據布局的組合來減少文件掃描的數量來滿足任何查詢。

配置和審查三角洲湖設置

磚三角洲湖表的所有數據和元數據存儲在雲存儲對象。可以設置很多配置在表級別或在引發會話。您可以回顧三角洲表來發現的細節配置選項。

數據管道使用湖和δ生活表

磚鼓勵用戶利用大獎章架構通過一係列的過程數據表數據清洗和豐富。三角洲生活表通過優化簡化了ETL工作負載執行和自動化基礎設施部署和擴展。

故障排除三角洲湖特性

不是所有三角洲湖特性在所有版本的磚運行時。你可以找到關於三角洲湖版本信息和常見問題的答案在接下來的文章:

三角洲湖API文檔

對於大多數三角洲表上讀和寫操作,您可以使用火花SQL或Apache火花DataFrameapi。

對於三角洲Lake-spefic SQL語句,看看三角洲湖語句

磚確保二進製兼容性與三角洲湖在磚運行時api。查看三角洲湖API版本打包在每個磚運行時版本中,看到的係統環境部分相關的文章磚的運行時版本說明。三角洲湖為Python api存在,Scala, Java: