與數據湖泊的挑戰是什麼?
數據湖泊提供一個完整的和權威的數據存儲,數據分析,商業智能和機器學習
與數據湖泊的挑戰是什麼?
挑戰# 1:數據的可靠性
沒有適當的工具,數據湖泊遭受可靠性問題,使數據科學家和分析師很難推斷數據。在本節中,我們將探討一些數據可靠性問題的根源湖泊。
後處理數據由於管道破裂
與傳統數據湖泊,需要不斷的再加工數據缺失或損壞可能成為一個主要的問題。它經常發生在某人寫數據到數據湖,但由於硬件或軟件故障時,寫作業不完成。在這種情況下,數據工程師必須花時間和精力刪除任何損壞數據,檢查數據正確性的其餘部分,並建立一個新的寫工作填補數據中的任何漏洞。
三角洲湖解決了後處理的問題,使得數據事務湖,這意味著每個操作上執行原子:它要麼完全或不完全成功。沒有,這很好,因為你的狀態數據湖可以保持清潔。因此,數據科學家不必花時間沉悶的後處理數據由於部分沒有寫。相反,他們可以花些時間尋找見解的數據和建築機器學習模型驅動更好的業務成果。
數據驗證和質量執行
當考慮數據應用,而不是軟件應用程序、數據驗證是至關重要的,因為沒有它,沒有辦法衡量的東西在你的數據壞了或不準確的最終導致可憐的可靠性。與傳統的軟件應用程序,很容易知道出事了,在你的網站上你可以看到按鈕不是在正確的地方,例如。然而,與數據應用數據質量問題就不容易被檢測。邊界情況,損壞數據,或不當的表麵在關鍵時間和關鍵數據類型可以打破你的數據管道。更糟的是,這些數據錯誤可以不被發現和傾斜你的數據,讓你可憐的商業決策。
解決方案是使用數據質量執法工具像三角洲湖的模式執行和管理模式演化的質量數據。這些工具,與三角洲湖的ACID事務,可以完全信任你的數據,即使它的發展和變化的整個生命周期,確保數據可靠性。了解更多關於三角洲湖。
結合批處理和流媒體數據
隨著實時收集的數據量,數據湖泊需要能夠輕鬆地捕獲和把流數據與曆史、批處理數據,這樣他們就可以保持更新。傳統上,許多係統架構師轉向λ架構來解決這個問題,但λ架構需要兩個單獨的代碼(一個用於批處理和一個用於流媒體),且難以建立和維護。
與三角洲湖,每個表可以很容易地整合這些類型的數據,作為批處理和流源和下沉。三角洲湖能夠做到這一點通過ACID事務的兩個屬性:一致性和隔離。這些屬性確保每個觀眾看到一致的數據視圖,甚至當多個用戶同時修改表,盡管新數據流到桌子上所有在同一時間。
批量更新、合並和刪除
數據湖泊可以保存大量的數據,和公司需要一些方法來可靠地執行更新、合並和刪除數據的操作,這樣就可以保持最新。湖泊與傳統數據,它可以是非常困難的執行這樣的簡單操作,並確認他們成功地發生,因為沒有機製,確保數據一致性。沒有這樣的一種機製,數據科學家就難以推斷他們的數據。
一個常見的方式更新、合並和刪除數據湖泊成為公司的難點與法規CCPA和GDPR數據。根據這些規定,公司有義務刪除所有客戶的信息在他們的請求。與傳統數據湖,有兩個挑戰完成這個請求。公司需要能夠:
- 查詢所有的數據在數據使用SQL湖
- 刪除任何數據相關客戶逐行計算,傳統的分析引擎不具備做的東西
三角洲湖解決這個問題通過啟用數據分析師輕鬆查詢所有的數據在數據使用SQL湖。然後,分析人員可以執行更新,合並或刪除數據和一個命令,由於三角洲湖的ACID事務。閱讀更多關於如何讓你的數據湖CCPA符合一個統一的數據和分析方法。
挑戰# 2:查詢性能
查詢性能是一個關鍵的驅動程序的用戶滿意度數據分析工具。為用戶進行互動,探索性數據分析使用SQL,快速反應常見的查詢是至關重要的。
湖泊可以容納成千上萬的文件和數據表,所以重要的是你的數據查詢引擎湖是大規模集群的性能優化。可能發生的一些主要的性能瓶頸,湖泊的數據在下麵討論。
小文件
有大量的小文件在數據湖(而不是更大的文件優化分析)可以減緩性能大大由於I / O吞吐量的限製。三角洲湖使用小文件壓縮小文件合並到更大的優化的讀訪問權。
沒有必要從磁盤讀取
多次訪問數據從存儲可以顯著緩慢的查詢性能。三角洲湖使用緩存來選擇性地舉行重要的表在內存中,這樣他們可以更快地回憶道。它還使用數據跳讀吞吐量增加15 x,避免處理與給定查詢無關的數據。
刪除文件
在現代數據使用雲存儲的湖泊,“刪除”的文件可以留在湖長達30天的數據,創建不必要的開銷,降低查詢性能。三角洲湖提供真空命令來永久刪除不再需要的文件。
數據索引和分區
對於適當的查詢性能,數據應該適當的索引,分區沿著湖維度,它是最有可能被分組。三角洲湖可以創建和維護索引,分區進行了優化分析。
元數據管理
湖泊,成長成為多個pb的數據或更多可以成為瓶頸不是數據本身,而是隨之而來的元數據。三角洲湖使用火花提供可擴展的元數據管理,分配其處理就像數據本身。
挑戰# 3:治理
數據湖泊傳統上一直很難正確安全的治理需求和提供足夠的支持。法律如GDPR和CCPA要求公司能夠刪除所有數據相關的客戶如果他們要求。刪除或更新數據在一個常規拚花湖附近的計算密集型,有時是不可能的。所有的文件,屬於被請求的個人資料必須識別,吸收、過濾、寫入新文件,原始的刪除。這個必須完成,不破壞或腐敗的查詢在桌子上。沒有簡單的方法來刪除數據,組織非常有限(通常罰款)由監管機構。
數據湖泊也使它具有挑戰性的曆史版本的數據保持在一個合理的成本,因為他們需要手動快照,快照存儲。