什麼是delta湖?
Delta Lake是一個開放的格式存儲層,可在您的數據湖中提供可靠性,安全性和性能 - 用於流和批處理操作。通過將數據筒倉更換為結構化,半結構化和非結構化數據,Delta Lake是一個具有成本效益,高度可擴展的湖泊屋的基礎。
高質量,可靠的數據
為所有數據提供可靠的單一事實來源,包括實時流,因此您的數據團隊始終使用最新數據。通過支持酸事務和架構執法,Delta Lake提供了傳統數據湖泊缺乏的可靠性。這使您可以在整個組織中擴展可靠的數據洞察,並直接在您的數據湖上運行分析和其他數據項目 - 最多50倍快的時間到洞察力。
打開和安全數據共享
閃電 - 快速性能
使用引擎蓋下的Apache Spark™,Delta Lake提供了大規模的秤和速度。因為它與索引等性能特征進行了優化,所以Delta Lake客戶已經看到beplay体育app下载地址ETL工作負載更快地執行高達48%。
開放和敏捷
Delta Lake中的所有數據都存儲在Open Apache Parquet格式中,允許任何兼容讀取器讀取數據。API是打開的,與Apache Spark兼容。在DataBricks上使用Delta Lakes,您可以訪問龐大的開源生態係統,並避免從專有格式鎖定數據。
尺度安全和治理
Delta Lake通過使數據治理的細粒度訪問控製來降低風險,數據湖泊通常不可能的功能。您可以快速準確地更新數據湖中的數據,以遵守GDP等法規,並通過審計日誌記錄保持更好的數據治理。這些功能在DataBricks上本身集成和增強,作為其中的一部分Unity目錄是湖泊館的第一個多雲數據目錄。
用例
bi您的數據
通過在數據湖上直接運行商業智能工作負載,通過數據分析師進行新的,實時數據,以查詢數據分析師通過在數據湖上運行商業智能工作負載而立即了解您的業務。Delta Lake允許您操作多罩LakeHouse架構,可在Data Lake經濟學中提供數據倉庫性能,比傳統的雲數據倉庫為SQL工作負載的最高可達6倍的價格/性能。
統一批量和流媒體
在一個簡化的體係結構上運行批處理和流式操作,避免複雜,冗餘係統和操作挑戰。在Delta湖中,桌子都是批處理表和流源和水槽。流媒體數據攝取,批量曆史回填和交互式查詢都從框中完成,直接與Spark結構流集成。
滿足監管需求
Delta Lake刪除了畸形的數據攝取挑戰,難以刪除符合性的數據,以及修改更改數據捕獲的數據。在數據湖上支持酸事務,Delta Lake確保每次操作完全成功或完全中止,以便稍後重試 - 無需創建新的數據流水線。此外,Delta Lake記錄了數據湖上的所有過去的交易,因此您可以輕鬆訪問和使用以前版本的數據,以可靠地滿足GDPR和CCPA等合規標準。
數據攝取網絡
本機連接器可輕鬆地從所有應用程序,數據庫和文件存儲中快速地將數據進入Delta Lake。
beplay体育app下载地址
“Databricks將時間交付給市場以及我們需要的分析和操作隆起,以便能夠滿足醫療保健部門的新要求。”
- 首席建築師彼得詹姆斯,健康澳大利亞
“通過利用DataBricks和Delta Lake,我們已經能夠以規模民主化數據,同時將運行生產工作量的成本降低60%,節省了數百萬美元。”
- 史蒂夫布爾克,首席技術官Yipitdata
“Delta Lake提供了酸性能力,可以簡化數據流水線操作,以提高管道可靠性和數據一致性。與此同時,等待緩存和自動索引等功能使能夠對數據進行高效和性能。“
- 洛拉未成年人,高級企業數據經理,哥倫比亞運動服
“Delta Lake已經為數據管道管理創造了一種簡化的方法。這導致運營成本降低,同時加快了對下遊分析和數據科學的時間識別。“
- ViaCom18,Digital Dewartation and Technology助理副總裁Parijat Dey