數據Lakehouse

免費試用Databricks

什麼是數據湖屋?

數據湖屋是一種新的、開放的數據管理體係結構,它結合了數據管理的靈活性、成本效率和規模數據的湖泊通過數據倉庫的數據管理和ACID事務,在所有數據上實現商業智能(BI)和機器學習(ML)。

數據湖屋:簡單、靈活、低成本

數據湖屋是由一種新的開放係統設計實現的:直接在用於數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。將它們合並到一個係統中意味著數據團隊可以更快地移動,因為他們能夠使用數據而不需要訪問多個係統。數據湖屋還確保團隊擁有最完整和最新的數據,可用於數據科學、機器學習和業務分析項目。數據存儲的演變,從數據倉庫到數據湖再到數據湖屋

關鍵技術啟用數據湖屋

有幾個關鍵的技術進步使數據湖屋得以實現:

  • 用於數據湖的元數據層
  • 新的查詢引擎設計,在數據湖上提供高性能SQL執行
  • 優化數據科學和機器學習工具的訪問。

元數據層像開源的Delta Lake一樣,它位於開放文件格式(例如。鑲花的文件),並跟蹤哪些文件是不同表版本的一部分,以提供豐富的管理功能,如兼容acid的事務。元數據層實現了數據湖屋中常見的其他特性,比如支持流I/O(消除了對Kafka等消息總線的需求),時間旅行到舊表版本,模式強製和進化,以及數據驗證。性能是數據湖屋成為當今企業使用的主要數據架構的關鍵,因為這是數據倉庫存在於兩層架構中的關鍵原因之一。雖然使用低成本對象存儲的數據湖在過去訪問速度很慢,但新的查詢引擎設計支持高性能SQL分析。這些優化包括在RAM/ ssd中緩存熱數據(可能轉換為更有效的格式)、對集群共訪問數據的數據布局優化、輔助數據結構(如統計數據和索引)以及現代cpu上的向量化執行。基於TPC-DS基準,將這些技術結合在一起,使得數據湖屋能夠在大型數據集上實現與流行數據倉庫相媲美的性能。的數據湖屋使用的開放數據格式(如拚花),使它非常對於數據科學家和機器學習工程師來說很容易訪問湖屋的數據。他們可以使用DS/ML生態係統中流行的工具,比如pandas,TensorFlowPyTorch和其他已經可以訪問Parquet和ORC等源代碼。火花DataFrames甚至為這些開放格式提供聲明性接口,從而實現進一步的I/O優化。數據湖屋的其他功能,如審計曆史記錄和時間旅行,也有幫助提高機器學習的再現性.要了解更多支持遷移到數據湖屋的技術進步,請參閱CIDR的論文Lakehouse:統一數據倉庫和高級分析的新一代開放平台Beplay体育安卓版本還有一篇學術論文Delta Lake:雲對象存儲上的高性能ACID表存儲

數據架構的曆史

數據倉庫的背景

數據倉庫在決策支持和商業智能應用程序方麵有著悠久的曆史,但對於處理非結構化數據、半結構化數據以及種類繁多、速度快和容量大的數據來說,數據倉庫不適合或成本昂貴。

數據湖的出現

然後出現了數據湖,用於在數據科學和機器學習的廉價存儲上處理各種格式的原始數據,盡管缺乏數據倉庫世界的關鍵特性:它們不支持事務,不強製執行數據質量,並且缺乏一致性/隔離性,這使得混合追加和讀取以及批處理和流式作業幾乎不可能。

通用兩層數據架構

因此,數據團隊將這些係統拚接在一起,以便跨這些係統中的數據支持BI和ML,從而導致重複數據、額外的基礎設施成本、安全挑戰和顯著的運營成本。在兩層數據架構中,數據從操作數據庫ETLd到數據湖。這個湖將來自整個企業的數據存儲在低成本的對象存儲中,並以與常見機器學習工具兼容的格式存儲,但通常沒有很好地組織和維護。接下來,一小部分關鍵業務數據再次被ETLd加載到數據倉庫中,用於業務智能和數據分析。由於有多個ETL步驟,這種兩層架構需要定期維護,並經常導致數據陳舊,根據Kaggle和Fivetran最近的調查,這是數據分析師和數據科學家所關注的一個重要問題。了解更多有關兩層架構的常見問題

額外的資源

回到術語表
Baidu
map