數據治理概述
本文描述了數據治理的必要性和分享最佳實踐和策略可以使用在整個組織中實施這些技術。它演示了一個典型的部署工作流可以使用使用磚和原生雲安全解決方案和監控每一層從應用程序到存儲。
數據治理為什麼重要?
數據治理是一個總括的術語,它封裝了實現安全管理的政策和實踐數據資產在一個組織。任何成功的關鍵原則之一數據治理實踐中,數據安全可能會介意在任何大型組織。數據安全的關鍵是數據團隊的能力出眾的可見性和可審核性的用戶數據訪問模式在他們的組織。實現一個有效的數據治理解決方案幫助企業保護數據免受未經授權的訪問,確保他們有規則,符合監管要求。
治理的挑戰
無論你是管理公司或大公司的數據,安全團隊和平台所有者有奇異的挑戰,確保這些數據是安全的,是根據組織的內部控製管理。Beplay体育安卓版本世界各地的監管機構正在改變我們思考的方式如何捕獲和存儲數據。這些合規風險隻添加進一步複雜棘手的問題。那麼,你打開你的數據對那些可以推動未來的用例?最終,你應該采用數據政策和實踐,幫助企業實現價值的通過有意義的應用程序通常可以存儲大量數據,商店正在增長。我們得到解決世界難題當數據團隊訪問許多不同來源的數據。
典型的挑戰當考慮雲中的數據的安全性和可用性:
你當前的數據和分析工具支持訪問控製在雲中的數據嗎?他們提供健壯的行動的日誌數據時通過給定的工具?
將你現在安全和監控解決方案到位規模隨著需求數據中的數據湖上?它可以容易提供和監控為一小部分用戶數據訪問。當你想打開數據湖數百個用戶嗎?成千上萬的嗎?
有什麼你可以主動在確保您的數據訪問策略正在被觀察到的?它僅僅是不夠的監控;這隻是更多的數據。如果數據可用性僅僅是數據安全的挑戰,您應該有一個解決方案來積極地監控和跟蹤整個組織訪問這些信息。
你可以采取什麼步驟來識別差距在你現有的數據治理解決方案?
磚是如何解決這些挑戰
磚提供了許多功能,可以幫助您滿足您的數據治理需求。
管理訪問數據和對象:
的磚安全和信任中心提供信息安全的方式是每層磚Lakehouse平台。Beplay体育安卓版本安全和信任中心提供信息,使您能夠滿足監管需求,同時利用磚Lakehouse平台。Beplay体育安卓版本找到以下類型的信息在安全與信任中心:
概述和列表的安全性和治理功能構建到平台。Beplay体育安卓版本
遵從性標準信息平台滿足在每個雲提供商。Beplay体育安卓版本
勤勉的包來幫助你評估磚幫助你滿足你的合規和監管需求。
磚的概述的隱私準則和它們是如何執行。
本文中的信息補充的安全與信任中心。
管理集群配置:
集群政策使管理員能夠控製對計算資源的訪問。
審計數據訪問:
審計日誌提供可見性行為和操作在你的帳戶和工作區。
以下部分說明如何使用這些磚特性來實現治理解決方案。
管理訪問數據和對象
管理訪問數據和對象,您啟用訪問控製和實現個人表和對象的細粒度控製。
實現訪問控製表
你可以啟用訪問控製表在工作區中以編程方式格蘭特,否認和撤銷火花的SQL API訪問你的數據。您可以控製訪問可獲得的對象(如數據庫、表、視圖和函數。考慮這樣一個場景,你的公司有一個數據庫來存儲財務數據。你可能希望你的分析師使用這些數據創建財務報告。但是,可能會有敏感信息在另一個表在數據庫中,分析師不應該訪問。您可以提供所需的用戶或組的權限讀取數據從一個表,但否認所有特權訪問第二個表。
在接下來的插圖,愛麗絲是一個管理誰擁有shared_data
和private_data
財務數據庫中的表。愛麗絲就提供了奧斯卡,分析師,讀取所需的特權shared_data
但否認了所有權限private_data
。
愛麗絲撥款選擇
特權奧斯卡閱讀shared_data
:
愛麗絲否認了所有權限奧斯卡來訪問private_data
:
你可以把這一步通過定義細粒度訪問控製表的子集或通過設置派生視圖的表上的特權。
管理集群配置
您可以使用集群政策提供集群自動管理權限,控製成本。
集群政策允許磚管理員定義集群屬性允許集群上,比如實例類型,數量的節點,自定義標記,和許多更多。當管理員創建一個政策和分配一個用戶或一個群體,這些用戶隻能創建集群根據他們獲得的政策。這使管理員更大程度的控製可以創建什麼類型的集群。
一個JSON定義政策策略定義,然後創建集群使用的政策集群政策UI或集群政策API。用戶可以創建一個集群隻有他們有create_cluster
許可或至少訪問一個集群政策。擴展您的需求的新分析項目團隊,如上所述,管理員現在可以創建一個集群策略,並將其分配給一個或多個用戶在項目團隊為團隊現在可以創建集群局限於規則中指定集群政策。下圖提供了一個示例的用戶訪問項目團隊集群政策
創建一個集群基於策略定義。
自動提供集群和授予權限
的端點為集群和權限,磚REST API 2.0很容易提供和授權許可在任何規模集群資源的用戶和組。您可以使用集群API 2.0創建和配置集群為您特定的用例。
然後,您可以使用權限API 2.0訪問控製應用於集群。
下麵是一個配置的一個例子,可能適合一個新的分析項目團隊。
要求是:
支持這個團隊的互動工作負載,大多是SQL和Python用戶。
提供一個數據源在對象存儲憑證給團隊對數據的訪問與角色。
確保用戶得到一個平等的共享集群的資源。
提供更大的內存優化實例類型。
授予的權限集群,隻有這樣的新項目團隊能夠訪問它。
標記這個集群,以確保你可以適當做退款任何計算費用。
部署腳本
部署這個配置集群和權限使用該API端點的API。
提供集群
端點,https:// < databricks-instance > / api / 2.0 /集群/創建
請注意
成本控製是通過搶占式執行器選項啟用。
{“自動定量”:{“min_workers”:2,“max_workers”:50},“cluster_name”:“集群項目團隊互動”,“spark_version”:“7.5.x-scala2.12”,“spark_conf”:{“spark.databricks.cluster.profile”:“serverless”,“spark.databricks.repl.allowedLanguages”:“sql, python, r”},“gcp_attributes”:{“use_preemptible_executors”:真正的},“node_type_id”:“n1-highmem-4”,“ssh_public_keys”:[],“custom_tags”:{“ResourceClass”:“Serverless”,“團隊”:“新項目組”},“spark_env_vars”:{“PYSPARK_PYTHON”:“磚/ python3 / bin / python3”},“autotermination_minutes”:60,“enable_elastic_disk”:“假”,“init_scripts”:[]}