實現GDPR權利被遺忘在三角洲湖
2022年3月23日 在工程的博客
磚的LakehouseBeplay体育安卓版本平台授權組織構建可伸縮和彈性數據平台,允許他們從他們的數據驅動的價值。隨著數據量的激增在過去的幾十年裏,越來越多的限製來保護數據所有者和公司關於數據使用。規定如加州消費者隱私法(CCPA)和一般數據保護規定(GDPR)出現了,並遵守這些規定,是非常必要的。其他數據管理和數據治理需求,這些規定要求企業有可能刪除所有個人信息消費者的要求。在這篇文章裏我們探索的方法符合這個需求而利用Lakehouse架構三角洲湖。
在我們深入技術細節之前,讓我們油漆更大的圖景。
+數據= Idatity身份
我們沒有發明這個詞,但我們絕對喜歡它!任何組織合並的兩個焦點,運營在數字空間。如何識別客戶身份,如何描述他們的客戶——數據beplay体育app下载地址。這個詞最初是由威廉·詹姆斯·亞當斯Jr .)(通常稱為will . i.a m)。著名的說唱歌手第一次使用這個詞在2014年世界經濟論壇(看到)。為了假設個人和組織在2019年將關心他說:“Idatity”——他是現貨!
就在幾個月前2019年開始,在2018年5月,歐盟通用數據保護法規(GDPR)生效。平心而論,GDPR采用2016年隻有成為可執行的5月25日開始,2018年。這項立法的目的是幫助個人保護自己的數據和定義權利有超過他們的數據(細節)。類似的法案,加州消費者隱私法案》(CCPA)介紹了在美國,2018年1月1日生效,2020年。
人類洋地黃
這個新物種在一個棲息地和無處不在的永久連接的屏幕和顯示器(看到)。
數據和身份是真正獲得應得的水平的關注。如果我們從一個物聯網角度觀察人類,我們很快意識到,我們每個人每一秒鍾生成的數據。我們的手機、筆記本電腦、牙刷、烤箱、冰箱、汽車——他們所有的人都發出數據的設備。數字世界和現實世界之間的界線變得越來越模糊。
我們作為一個物種是超越物質世界之旅——第一個離開地球的地球物種(物理方法)。類似於現實世界,交戰規則需要為了保護這個勇敢的新的數字世界的居民。
這正是為什麼通用數據保護法規如上述GDPR和CCPA保護數據對象是至關重要的。
“個人數據”的定義
根據GDPR,個人資料是指有關的任何信息確定或可識別的自然人(“數據主題”);可識別的自然的人是可以確定的,直接或間接,特別是通過引用一個標識符,比如名字,身份證號碼,位置數據,在線標識符或特定的一個或多個因素的物理、生理、遺傳、心理、經濟、文化和社會身份的自然人。
根據CCPA,個人資料是指任何信息,識別、相關描述,是能夠與合理,還是相當有關聯,直接或間接地與特定消費者或家庭。
值得注意的一件事是,這些立法並不是彼此的精確副本。在上麵的定義中,我們可以注意到,CCPA有一個廣泛的定義什麼是個人數據,指的是一個家庭而GDPR指的是一個獨立的個體。這並不意味著本文所討論的技術並不適用於CCPA,這僅僅意味著,由於廣泛應用CCPA可能需要進一步的設計考慮。
被遺忘的權利
我們的博客的重點將是在“正確的被遺忘”(或“擦除權”)的一個關鍵問題覆蓋的通用數據保護規定上述GDPR和CCPA等。“被遺忘的權利”調節條數據擦除的義務。根據這篇文章,個人數據必須及時擦除(通常在30天內收到請求),原來的數據不再需要處理的目的,數據對象撤回他們的同意,也沒有其他法律地麵進行處理,數據對象反對並沒有壓倒一切合法的理由處理,或擦除需要履行法定義務根據歐盟法律或成員國的權利…(完整的義務看到)。
我的數據使用適當嗎?我的數據隻使用而需要嗎?我離開數據麵包屑所有在互聯網上嗎?最終我的數據錯誤的手嗎?這些確實是嚴重的問題。甚至可怕。“被遺忘的權利”解決了這些問題,旨在提供一個級別的數據保護問題。非常簡化的方式我們可以閱讀“被遺忘的權利”:我們有權利擁有數據刪除如果數據處理器不需要我們提供服務和/或如果我們已經明確要求他們刪除數據。
勿忘我是昂貴的!
背後插花藝術是不隱藏信息的罰款和處罰違反數據保護符合GDPR。根據83 GDPR藝術。處罰的範圍可以從1000萬歐元或2%的事業(哪個更高)不太嚴重侵犯2000萬歐元或4%的情況下進行更嚴重的侵犯(看到)。這些隻包括監管機構施加懲罰-損害的聲譽和品牌傷害更難量化。這些監管措施的例子有很多,例如,穀歌被瑞典的數據保護部門罰款800萬美元(DPA)早在2020年3月(看到更多的)的不當處理搜索結果鏈接。
世界上的大數據,執行GDPR,或在我們的例子中,“被遺忘的權利”可以是一個巨大的挑戰。然而,風險是任何組織過於高忽略這個用例的數據。
酸+時間旅行=守法數據
我們相信,δ是黃金標準格式來存儲數據嗎磚LakehouseBeplay体育安卓版本平台。有了它,我們能保證我們的數據存儲與良好治理和性能。幫助表在我們δ湖(lakehouse存儲層)是ACID(原子性、一致性、隔離、耐用)。
上的一致性和治理lakehouse數據倉庫,三角洲允許我們保持我們的版本曆史表。每一個原子操作的三角洲表將導致一個新版本的表。每一個版本將包含的信息數據提交和拚花在這個版本(添加/刪除的文件看到)。這些版本可以通過版本號或引用的合乎邏輯的時間戳。就是我們稱之為之間移動版本“三角洲時間旅行”。檢查出一個實際操作演示如果你想了解更多關於δ時間旅行。
在我們的數據操作和數據的維護和使用技術/表以原子方式可以GDPR合規的重要性。這樣的技術執行在一個連貫的方式——所有生成的行寫入或數據保持不變,這有效地避免數據泄漏由於部分寫道。
雖然三角洲時間旅行是一種強大的工具,但它仍然應該使用域內的原因。存儲曆史太長會導致性能下降。這可能發生由於積累太多的所需數據和元數據版本控製。
讓我們看一些潛在的方法來實現“被遺忘權”要求您的數據。雖然這篇文章關注的焦點主要是三角洲湖上,要有適當的機製使所有組件的數據平台符合規定。Beplay体育安卓版本大部分的數據都駐留在雲存儲中,設置保留策略是一種最佳實踐。
方法1 -數據健忘症
三角洲,我們還有一個工具在我們處理解決GDPR合規,特別是“被遺忘的權利”真空。真空操作刪除不再需要的文件和超過一個預定義的保存期。默認的保持期是30天結合GDPR不當延誤的定義。我們之前博客類似的主題詳細解釋了如何找到並刪除個人信息相關的消費者通過運行兩個命令:
刪除從數據在哪裏電子郵件=的消費者@domain。com”;真空數據;
不同層的圖案架構可能有不同的保留時間與他們的三角洲表。
與真空,我們從三角洲永久刪除數據,需要擦除表。然而,真空刪除我們所有的版本表超過保存期。這讓我們在數字過時-數據失憶的情況。我們已經有效地刪除了我們需要的數據,但是在這個過程中我們已經刪除的進化譜係表。簡而言之,我們有限的時間旅行的能力通過δ表的曆史。
這樣可以減少我們保留的審計跟蹤的能力δ表上執行數據轉換。我們不能擦除保證和審計跟蹤嗎?讓我們看看其他的可能性。
方法2 -匿名化
定義“刪除數據”的另一種方法是改變數據的方式不能逆轉。這種方式提取原始數據被摧毀但我們能力統計信息將被保留下來。如果我們觀察“被遺忘的權利”要求從這個角度,我們可以應用轉換的數據,這樣的人不能被這些轉換後獲得的信息。在幾十年的軟件實踐,越來越複雜的按照數據的技術已發展成了。雖然匿名化是一種廣泛使用的方法,它有一些缺點。
匿名化的主要挑戰是,它應該是工程實踐從一開始的一部分。介紹在後期會導致不一致的狀態的數據存儲與高度敏感的可能性為廣大觀眾提供的數據錯誤。這種方法適用於小(列數)的數據集,當應用從一開始的開發過程。
方法3 - Pseudonymization /歸一化表
規範表是一種常見的實踐關係數據庫中的世界。我們都聽說過六個常用的歸一化形式(或者至少是其中的一個子集)。在數據倉庫領域的這種方法演變成維度數據建模,數據沒有嚴格規範化但在事實和維度的一種形式。在大數據技術的領域,標準化成為更廣泛使用的工具。
的“被遺忘的權利”要求,標準化(或pseudonymization)可以導致一種可能的解決方案。讓我們想象一個增量表,包含“個人身份信息”(PII)列和數據(PII)列。而不是刪除所有記錄我們可以把表分成兩:
- PII包含敏感數據表
- 所有其他數據不敏感和失去能力來識別一個人沒有其他表
在這種情況下,我們仍然可以“數據失憶”的方法應用於第一個表並保持主數據集的完整。這種方法有以下好處:
- 它是相當容易實現
- 它給的可能性保持最可供重用的數據(例如毫升模型)符合規定
雖然這聽起來像是一個好方法,我們還應該考慮它的缺點。標準化/ Pseudonymization來與必要性加入數據集,從而導致意想不到的成本和性能損失。標準化意味著一個表分割為兩個時,這種方法可能是合理的,但是沒有控製它可以很容易地進入多個表隻是簡單的信息從數據集。PII分割表和non-PII數據也可以迅速導致表的數量翻倍,導致數據治理地獄。
另一個警告要記住的是:沒有控製,介紹了數據結構歧義。說,例如,您需要擴展你的數據與一個新列,你去添加:PII和non-PII表嗎?
這方式是最好的如果組織已經使用規範化的數據集,與δ或遷移到三角洲。如果標準化已經數據布局的一部分,然後實現“數據失憶”隻PII數據邏輯方法。