再保險:統一目錄——偉大的還是有限的?-磚- 32973

Carsten_K · ‎08-30-2022

嗨,夥計們,

我想知道你如何采用統一目錄。在我看來相當有限的,你隻能有一個加州大學/地區。我們構建一個數據倉庫,我們有三個工作區- dev,測試和刺激。我們認為我們可以使用的命名標準catalog.sourcesystem_name的地方。當例如舉辦我們的源數據表。當我閱讀文檔,我們需要添加後綴或前綴能夠區分哪些地方環境我們現在使用,因為所有數據在工作區是可見的。

我想要一些輸入你如何實現加州大學和為不同的目的使用不同的工作空間。

Br,

Carsten

帕特 · ‎08-31-2022

嗨Carsten,

在這種情況下,也許你可以創建多個目錄的一個metastore:

dev.source_system_name_1.table_1

dev.source_system_name_2.table_1

…

test.source_system_name_1.table_1

test.source_system_name_2.table_1

…

prod.source_system_name_1.table_1

prod.source_system_name_2.table_1

有一個有趣的視頻從今年的峰會:https://youtu.be/ibvG-pYKl8U?t=852

“那你隻允許有一個加州大學/地區”<——我認為這是推薦的方法,但您應該能夠創建多個metastores在一個地區。我想測試這種方法,開發和刺激在同一地區,不同的桶。另一個選項可以創建開發在不同的地區。

我認為這裏的限製使用這種方法,您將不得不創建的所有管理表隻有一個水桶,分配給加州大學。

~~“既然現在所有數據在工作區是可見的。”- this can be limited by creating multiple roles.~~

~~你可以dev-data-eng、test-data-eng prod-data-eng角色創建賬戶層麵然後你給你的開發帶來隻有dev-data-eng工作區,等等。~~

~~這裏的限製是,超級用戶仍然能夠訪問所有數據,除非你不允許統一目錄管理進入工作區(不知道這是可能的,我現在檢查)。~~

我有一點困惑,我混合工作區帳戶權限和數據權限。

Carsten_K · ‎09-04-2022

謝謝你的分享的演示。我們使用它作為輸入如何設計我們的加州大學設置。另一個限製是現在,如果我們想使用管理表的推薦方法,然後我們被迫使用一個存儲占所有三個環境。這個我們不能接受,因此被迫與外部表。

帕特 · ‎09-05-2022

嗨@Carsten Klausman,

這對我來說是一個問題,我不能將所有數據存儲在一個桶。

我將不得不使用外部表和管理。

能夠看到所有的數據從每個工作空間對我來說是有點疼痛,我想隔離一些工作區允許隻讀的具體數據,我可能需要去與UC工作區和non-UC啟用。

werners1 · ‎09-13-2022

我也調查統一。我認為這是偉大的和有限的,但比偉大更有限。

好,因為你有一些非常有趣的功能,如列/基於行的訪問,和血統。

但它仍然是非常有限的,因為沉重的關注表和三角洲湖。

他們似乎有點忘記了,大量的數據仍然駐留在常見的鑲花的文件。

初版

覆蓋模式DataFrame寫操作為三角洲隻支持統一目錄表,不為其他文件格式。

這個獨自一人讓我想知道我們應該使用它,或看著DataHub /阿蒙森。

這仍然是一個新產品,新功能可能會增加,但現在我可能不會使用它。