使用統一的目錄與三角洲住表管道

預覽

三角洲表支持統一目錄是在生活公共預覽

除了現有的支持持久化表蜂巢metastore,你可以使用統一目錄與你的三角洲生活表管道:

  • 統一目錄中定義一個目錄你的管道將保存表。

  • 從統一編目表讀取數據。

您的工作空間可以包含使用統一目錄或蜂巢metastore的管道。然而,一個單一的管道不能寫蜂巢metastore和統一目錄和現有管道不能升級到使用統一目錄。現有的管道,不使用統一目錄並不受此影響預覽,並將繼續堅持數據到蜂巢metastore使用配置的存儲位置。

除非另有指定在本文檔中,所有現有的數據源和三角洲住表功能支持與管道使用統一的目錄。這兩個PythonSQL接口支持管道使用統一的目錄。

你的管道中創建的表也可以查詢使用磚從統一目錄共享集群運行時13.1及以上或SQL倉庫。從分配表不能查詢或任何隔離集群。

管理權限表由統一目錄創建管道,使用GRANT和REVOKE

需求

以下是需要創建表統一目錄從三角洲地區生活表管道:

  • 你的管道必須配置為使用預覽通道

  • 你必須有使用目錄目標目錄上的特權。

  • 你必須有創建物化視圖使用模式如果你的管道產生特權在目標模式物化視圖

  • 你必須有創建使用模式如果你的管道產生特權在目標模式流表

  • 如果沒有指定一個目標模式的管道設置,您必須創建物化視圖創建至少一個模式在目標目錄上的特權。

限製

以下是限製在使用統一目錄與達美住表:

  • 現有管道使用蜂巢metastore不能升級到使用統一目錄。遷移現有管道蜂巢metastore寫道,您必須創建一個新的管道和攝取數據從數據源(年代)。

  • 你不能在一個工作區中創建一個團結Catalog-enabled管道附加到metastore期間創建統一編目公共預覽。看到升級到特權的繼承

  • Init腳本,不支持第三方庫和罐子。

  • 數據操作語言(DML)查詢,修改不支持流表的模式。

  • 物化視圖中創建一個增量表管道不能用作直播源以外的管道,例如,在另一個管道或下遊的筆記本。

  • 你不能改變管道使用統一目錄的所有者。

  • 出版模式,指定一個存儲位置不支持管理。所有表存儲在目錄存儲位置如果目標目錄指定一個,否則,它們存儲在metastore根存儲位置。

  • 曆史標簽數據瀏覽器不會顯示曆史上為流表和物化視圖。

  • 位置屬性不支持在定義一個表。

  • 蜂巢metastore Catalog-enabled管道不能統一發布。

  • Python UDF私下支持預覽。啟用此功能,請聯係您的磚領域工程的代表。當UDF支持啟用時,使用Python UDF管道必須添加“PythonUDF.enabled”:“真正的”自定義集群標簽的默認和維護集群管道。

  • 你不能使用三角洲分享δ住表物化視圖或表發布到流媒體統一目錄。

  • 你不能使用事件日誌表值函數在一個管道或查詢訪問多個管道的事件日誌。

  • 你不能分享一個視圖的創建event_log表值函數與其他用戶。

  • 不支持單節點集群與團結Catalog-enabled管道。因為δ生活表可以創建一個單節點集群運行更小的管道,管道可能會失敗,錯誤消息引用單節點模式。如果發生這種情況,確保你指定至少一名工人配置您的計算設置

請注意

底層文件從上遊支持物化視圖可能包括數據表(包括可能的個人身份信息)不出現在物化視圖的定義。這個數據是自動添加到底層存儲支持增量刷新物化視圖。

因為底層文件的物化視圖可以從上遊風險暴露數據表不是物化視圖模式的一部分,磚建議不要與不可信共享底層存儲下遊消費者。

例如,假設一個物化視圖的定義包括一個計數(不同的field_a)條款。盡管物化視圖定義隻包括聚合截然不同的條款,底層文件將包含一個列表的實際值field_a

改變現有的功能

當DLT配置為統一目錄,保存數據表的生命周期由三角洲住表管道。因為管道管理表的生命周期:

  • 當一個表被刪除從三角洲住表管道定義,對應的物化視圖或流表條目被刪除從統一目錄下管道更新。實際的數據保留一段時間,這樣就可以恢複,如果誤刪除。可以恢複數據通過添加物化視圖或表回管道流的定義。

  • 刪除三角洲生活表管道導致刪除所有表中定義的管道。由於這一變化,三角洲生活表更新UI提示您確認刪除一條管道。

寫表從三角洲生活統一編目表管道

寫你的表統一目錄,當你創建一個管道中,選擇統一目錄存儲選項,選擇一個目錄中目錄下拉菜單,並提供一個數據庫名稱目標模式字段。

數據攝取到統一目錄管道

你的管道配置為使用統一目錄可以讀取數據:

  • 統一目錄管理和外部表、視圖物化視圖和流表。

  • 蜂巢metastore表和視圖。

  • 自動加載器使用cloud_files ()從統一目錄讀取外部函數的位置。

  • Apache卡夫卡和亞馬遜運動。

下麵是閱讀的例子從統一目錄和蜂巢metastore表。

從統一目錄表批攝入

創建刷新生活table_name作為選擇*my_catalogmy_schema表1;
@dltdeftable_name():返回火花(“my_catalog.my_schema.table”)

流的變化從一個統一目錄表

創建刷新流媒體table_name作為選擇*(my_catalogmy_schema表1);
@dltdeftable_name():返回火花readStream(“my_catalog.my_schema.table”)

從蜂巢metastore攝取數據

一個管道,使用統一目錄可以從蜂巢metastore讀取數據表使用hive_metastore目錄:

創建刷新生活table_name作為選擇*hive_metastoresome_schema;
@dltdeftable3():返回火花(“hive_metastore.some_schema.table”)

攝取數據自動加載程序

創建刷新流媒體table_name作為選擇*cloud_files(<路徑- - - - - -- - - - - -加州大學- - - - - -外部- - - - - -位置>,“json”)
@dlt(table_properties={“質量”:“青銅”})deftable_name():返回(火花readStream格式(“cloudFiles”)選項(“cloudFiles.format”,“json”)負載(f{path_to_uc_external_location}))

分享物化視圖(生活表)

默認情況下,創建的表管道隻有管道所有者可以查詢。你可以給其他用戶查詢一個表使用的能力格蘭特查詢語句,你可以撤銷訪問使用撤銷語句。在統一目錄權限的更多信息,請參閱統一目錄管理權限

格蘭特選擇在桌子上

格蘭特選擇my_catalogmy_schemalive_table用戶@com

取消選擇在桌子上

撤銷選擇my_catalogmy_schemalive_table用戶@com

創建表或創建物化視圖特權授予

格蘭特創建模式my_catalog{物化視圖|表}。my_schema{本金|用戶}

管道視圖血統

血統表δ生活表中管道在數據瀏覽器是可見的。物化視圖或統一Catalog-enabled管道流表,數據瀏覽血統UI顯示了上遊和下遊表。血統是隻顯示中定義表之間的管道;表定義外的管道和管道中讀數據中沒有顯示瀏覽器UI血統。了解更多關於統一目錄血統,明白了捕獲和視圖數據沿襲統一目錄

物化視圖或流管道表在一個聯合Catalog-enabled三角洲生活表,數據瀏覽血統UI也會鏈接到管道產生物化視圖或流表如果管道從當前工作區中訪問。

添加、更改或刪除數據流表

您可以使用數據操作語句(DML),包括插入、更新、刪除和合並報表,修改流表統一發布到目錄中。支持DML查詢流表支持用例更新表等通用數據保護監管(GDPR)合規。

請注意

  • DML語句修改表模式不支持流表。確保你的DML語句不要試圖發展表模式。

  • DML語句更新流表隻能運行在一個共享統一編目集群或SQL使用磚運行時13.1及以上的倉庫。

以下是DML語句的例子修改記錄在流表。

刪除記錄與特定ID:

刪除my_streaming_table在哪裏id=123年;

更新記錄與特定ID:

更新my_streaming_table的名字=“簡”在哪裏id=123年;