三角洲湖入門

做出有用數據驅動決策的關鍵限製之一是基礎數據存儲的結構，可訪問性和質量。因此，重要的是要為所有最終用戶製定精心計劃的數據訪問策略。

該策略的一個方麵可以是數據存儲格式由三角洲湖。

什麼是三角洲湖？

達美湖是Databricks Lakehouse建築的關鍵組成部分。Delta表格式是大規模企業數據湖泊的廣泛使用標準。建立在另一種開源格式（Parquet）的基礎上，戴爾塔湖（Parquet）添加了高級功能和功能，可實現額外的魯棒性，速度，版本控製和數據軟件式的酸合規性。這是使用現有廉價斑點存儲服務的現有成本優勢。

Databricks對Delta Lake有內置的支持，最新的Databricks Runtimes包括增強性能，以提高速度和性能。

有關三角洲湖及其能力的完整討論，請參見此演講：與三角洲湖變得更好。

使用Delta Lake和Delta Live Tables的數據管道

當您納入您的整體數據策略時，建立在三角洲湖上的數據管道應遵循分層的多跳策略。這是從原始攝入量（青銅水平）到半理程（銀級）再到最經過處理的業務準備就緒的表（黃金級）的連續數據清潔和轉換模式。

您可以在本演講中查看對此方法的更徹底的檢查：簡化和擴展數據工程管道。

Databricks也包括三角洲現場桌，一個有力的框架，用於構建可靠，可維護和可測試的數據處理管道。您定義要執行數據的轉換，並管理Delta Live桌子管理任務編排，群集管理，監視，數據質量和錯誤處理。

Delta Live Tables沒有使用一係列單獨的Apache Spark任務來定義數據管道，而是根據您針對每個處理步驟定義的目標架構來管理數據如何轉換。

有關介紹，請參閱QuickStart：使用Delta Live表創建數據管道

概述和Quickstarts

要開始使用Delta Lake和Delta Live Tables，請參閱：