這就跟你問聲好!
所以我一直在努力統一目錄,因為它似乎增加許多偉大的功能。
但有一件事我不能弄清楚的是,我們不能(不應該?)使用多個metastores在同一地區的加州大學。
讓我解釋我的usecase:
我們有兩個環境開發/生產每一瓦分貝。
我們使用meddalion orginanized架構我們的數據:
bronze.source_system.dataset2
bronze.source_system.dataset1
現在我要做的就是使用這種命名約定中所有表的加州大學,但這是不可能的因為表存儲在dev和刺激會碰撞。和解決方案添加一個前綴/後綴在表名不是很優雅的清規戒律。
我們可以做一些類似:
prod_bronze.source_system.dataset2
prod_bronze.source_system.dataset1
或
prod.bronze_source_system.dataset2
prod.bronze_source_system.dataset1
但是我們需要我們的代碼來跟蹤環境的代碼被執行在選擇正確的桌子在我們的管道任務。
所以我想做的是使用一個metastore /環境,這對我們也會減輕另一個問題:這一事實我們必須將所有管理表存儲在同一個存儲賬戶,即使他們是在不同的環境中創建的。這不是一個選擇對我們來說,肯定我們可以使用外部表,但仍然不是很好。
心存感激,任何輸入,您的解決方案如何看在沙箱中使用加州大學/ dev / prod環境嗎?
謝謝!
我認為這個問題的答案是有賬戶的環境。會更好如果按AWS磚引入了組織的特性。
嗨@Sivaprasad C年代的如果我們有不同的實例ADLS dev / qa /刺激(但在同一地區)。因為我們想要在ADLS訪問外部表位置。我們可以創建不同的大賣場為Dev / QA /刺激在同一地區嗎?
有很多的效用能夠sperate dev / qa /刺激數據。我們不(在某些情況下不能)促使數據在開發環境中accessable /工作區,或有刺激環境中開發數據/工作區
是目前我沒有看到如何使用統一目錄內我們的環境。我們不能複製相同級別的隔離hive_metastore所以沒有直接提供的升級路徑。這是一個恥辱,有很多其他偉大的功能,需要統一目錄,我們不能利用
我希望metastore極限限製是重新評估
我認為我們非常感謝你關心我們的挑戰與複雜性和開銷。但問題是,每個組織都是不同的,有不同的需求。這個約束是一個真正的致命傷。
因為隻有一個metastore /地區和AAD的房客,我不能夠使用統一目錄在我的組織。有能力有多個metastores——每個國家都有不同的管理可以解決。