什麼是圓形湖屋建築?
獎章體係結構描述了一係列數據層,表示存儲在湖屋中的數據質量。Databricks建議采用多層方法為企業數據產品構建單一的真實來源。當數據在存儲在為高效分析而優化的布局中之前經過多層驗證和轉換時,此體係結構保證了原子性、一致性、隔離性和持久性。條款青銅(生),銀(驗證)黃金(豐富的)描述了這些層中每個數據的質量。
重要的是要注意,這個獎章體係結構不會取代其他維度建模技術。每一層中的模式和表可以采用各種形式和規範化程度,這取決於數據更新的頻率和性質以及數據的下遊用例。
組織可以利用Databricks Lakehouse創建和維護經過驗證的數據集,可在整個公司訪問。采用專注於將數據作為產品進行管理的組織思維方式是成功構建數據湖屋的關鍵步驟。
攝取原始數據到青銅層
青銅層包含未經驗證的數據。在青銅層中攝取的數據通常為:
維護數據源的原始狀態。
增量添加,並隨時間增長。
可以是流處理和批處理事務的任意組合。
以一種有效的存儲格式保留每個數據集的完整的、未處理的曆史記錄,提供了重新創建給定數據係統的任何狀態的能力。
額外的元數據(例如源文件名或記錄數據被處理的時間)可以添加到攝取數據中,以增強可發現性、描述源數據集的狀態,並優化下遊應用程序的性能。
在銀色層中驗證和重複數據
回顧一下,青銅層包含了幾乎原始狀態的整個數據曆史,而銀色層代表了經過驗證的、豐富的數據版本,可以信任它進行下遊分析。
雖然Databricks堅信由青銅、銀和金桌子驅動的湖屋願景,但隻需有效地實現銀層就可以立即釋放湖屋的許多潛在好處。
對於任何數據管道,銀色層可以包含多個表。
黃金層的權力分析
這些黃金數據通常是高度精煉和聚合的,包含用於分析、機器學習和生產應用程序的數據。雖然湖屋中的所有桌子都有重要的用途,但金表代表的是已經轉化為知識的數據,而不僅僅是信息。
分析師在很大程度上依賴金表來履行他們的核心職責,與客戶共享的數據很少存儲在這個級別之外。
對這些表的更新是作為定期安排的生產工作負載的一部分完成的,這有助於控製成本,並允許為數據的新鮮度建立服務水平協議(sla)。
雖然lakehouse沒有在企業數據倉庫中可能遇到的死鎖問題,但金表通常存儲在單獨的存儲容器中,以幫助避免雲對數據請求的限製。
通常,由於聚合、連接和過濾是在將數據寫入gold層之前處理的,所以用戶應該看到gold表中數據的低延遲查詢性能。