數據治理最佳實踐
本文描述了對數據治理的需求,並分享了可用於在整個組織中實現這些技術的最佳實踐和策略。
為什麼數據治理很重要?
數據治理是確保數據帶來價值並支持業務策略的監督。數據治理封裝了為安全管理組織內的數據資產而實現的策略和實踐。隨著數據的數量和複雜性不斷增長,越來越多的組織開始關注數據治理,以確保核心業務成果:
一致性和高質量的數據是分析和機器學習的基礎。
縮短了洞察的時間。
數據民主化,也就是讓組織中的每個人都能做出數據驅動的決策。
支持HIPAA、FedRAMP、GDPR或CCPA等行業法規的風險和合規性。
成本優化,例如防止用戶啟動大型集群,並為使用昂貴的GPU實例創建護欄。
好的數據治理解決方案是什麼樣的?
數據驅動型公司通常在湖屋上構建數據架構進行分析。數據湖屋是一種體係結構,可以直接對存儲在數據湖中的大量數據進行高效、安全的數據工程、機器學習、數據倉庫和商業智能。數據湖屋的數據治理提供以下關鍵功能:
統一目錄:除了每個數據對象的元數據外,統一的目錄還存儲了所有數據、ML模型和分析工件。統一的目錄還混合了來自其他目錄的數據,比如現有的Hive metastore。
統一數據訪問控製:跨所有數據資產和所有雲的單一統一權限模型。這包括個人身份信息(PII)的基於屬性的訪問控製(ABAC)。
數據審核:通過警報和監控功能對數據訪問進行集中審計,以促進問責製。
數據質量管理:強大的數據質量管理,內置質量控製、測試、監控和執行,以確保下遊BI、分析和機器學習工作負載可獲得準確和有用的數據。
數據沿襲:數據沿襲以獲得端到端可見性,了解數據如何在lakehouse中從源流向消費。
數據發現:輕鬆的數據發現使數據科學家、數據分析師和數據工程師能夠快速發現和引用相關數據,並加快實現價值的時間。
數據共享:數據可以跨雲和平台共享。Beplay体育安卓版本
數據治理和數據庫
Databricks通過Unity Catalog和Delta Sharing為數據和人工智能提供集中治理。
統一目錄是Databricks Lakehouse上的數據和人工智能的細粒度治理解決方案。它通過提供一個管理和審計數據訪問的中心位置,幫助簡化數據的安全性和治理。
三角洲分享是Databricks開發的一種開放協議,用於與其他組織或組織內的其他團隊安全地共享數據,而不管他們使用哪種計算平台。Beplay体育安卓版本
有關采用Unity Catalog和Delta Sharing的最佳實踐,請參見Unity Catalog最佳實踐.
遺留數據治理解決方案
表訪問控製是一個遺留數據治理模型,允許您通過編程方式授予和撤銷對工作空間內置Hive metastore管理的對象的訪問權。Databricks建議您使用Unity Catalog代替表訪問控製。Unity Catalog通過提供一個中央位置來管理和審計帳戶中多個工作區的數據訪問,從而簡化了數據的安全性和治理。
IAM角色憑據傳遞也是一個遺留的數據治理特性,允許用戶使用登錄Databricks時使用的身份自動從Databricks集群驗證到S3桶。Databricks建議你使用Unity Catalog代替。
身份配置
每個好的數據治理故事都始於強大的身份基礎。要了解如何在Databricks中最佳地配置身份,請參見身份最佳實踐.
了解更多
以下是一些資源,可以幫助您構建滿足組織需求的全麵數據治理解決方案:
開始使用Unity目錄,以獲得為您的組織設置Unity Catalog的逐步說明。
的數據安全與信任中心,它提供了有關如何將安全性構建到Databricks Lakehouse平台的每一層的信息。Beplay体育安卓版本
保密管理,以獲取有關如何使用Databricks secrets存儲憑據並在筆記本電腦和作業中引用憑據的信息。你不應該硬編碼秘密或者以純文本的形式存儲它們。