使用Lakehouse聯合運行查詢

預覽

這個特性是在公共預覽

本文介紹Lakehouse聯合會聯合查詢平台,使您能夠使用磚運行查詢多個外部數據源。Beplay体育安卓版本它還描述了如何設置Lakehouse聯盟連接和創建外國目錄在你的目錄metastore統一。

Lakehouse聯盟是什麼?

Lakehouse聯合查詢聯邦磚的平台。Beplay体育安卓版本這個詞查詢聯合會描述了一組功能,讓用戶和係統對多個數據源運行查詢,而不需要將所有數據遷移到一個統一的係統。

磚使用統一目錄管理查詢的聯盟。你隻讀連接配置為流行的數據庫解決方案使用驅動程序包括在支持SQL倉庫,Serverless SQL倉庫和磚運行時的集群。聯合目錄的數據管理和數據沿襲工具確保數據訪問管理和審計所有的聯邦查詢由磚中的用戶工作區。

為什麼使用Lakehouse聯盟?

lakehouse強調中央存儲數據以減少數據冗餘和隔離,但你的組織可能有大量的數據係統在生產中,你可能會想要查詢數據連接係統的原因:

  • 臨時報告。

  • 概念驗證工作。

  • 新ETL的探索性階段管道或報告。

  • 支持增量遷移期間的工作負載。

在這些場景中,查詢聯邦能讓你更快的見解,因為你可以查詢數據,避免複雜而耗時的ETL處理。

簡而言之,Lakehouse聯盟意味著使用情況:

  • 你不想攝取數據轉換成磚。

  • 你想讓你的查詢利用外部數據庫係統的計算。

  • 你想要統一目錄接口和數據治理的優勢,包括細粒度訪問控製、數據血統,和搜索。

本節比較Lakehouse聯合其他磚工具訪問外部數據的數據的係統。

Lakehouse聯合會與三角洲共享

三角洲分享是偉大的,當你可以直接共享數據文件。Lakehouse聯盟給你訪問外部係統中的計算時直接共享是不可用的。

Lakehouse聯合會與統一目錄外部表

直接從簡單的數據訪問文件係統,如Amazon S3,穀歌雲存儲,或Azure數據存儲Gen2湖,您應該創建外部表在統一目錄。但是如果你需要運行複雜的查詢,希望訪問外部數據庫係統的計算,您應該使用Lakehouse聯盟。

Lakehouse聯合會與遺產查詢聯合會

遺留查詢聯合配置,就像那些記錄設置查詢聯盟non-Unity-Catalog工作區在磚與外部數據,需要你配置分別連接到每個表,而不是讓整個數據庫中可用數據磚目錄。他們不為你提供Lakehouse聯盟的統一編目數據治理工具或攝取整個數據庫的能力。最後,他們不給你查詢下推和Lakehouse聯合會的性能。

然而,如果你不能使用統一目錄或你使用身份驗證方法除了用戶名和密碼,查詢遺留聯盟可能是你最好的選擇。

如果你想查詢聯合配置遷移到Lakehouse聯合會遷移遺留查詢聯合會連接Lakehouse聯合會

概述Lakehouse聯盟設置

做一個數據集用於隻讀查詢使用Lakehouse聯合會,你創建以下:

  • 一個連接在統一目錄可獲得的對象,指定一個路徑和憑證來訪問外部數據庫係統。

  • 一個外國目錄在統一目錄可獲得的對象,反映了數據庫在外部數據係統,使您能夠執行隻讀查詢,磚的工作空間數據係統,使用統一管理訪問目錄。

受支持的數據源

Lakehouse聯合會支持連接數據庫類型如下:

在你開始之前

工作要求:

  • 工作區為統一啟用目錄。

計算要求:

  • 從你的磚運行的集群或網絡連接SQL倉庫到目標數據庫係統。看到網絡對Lakehouse聯合會的建議

  • 磚集群必須使用磚集群運行時13.1或更高版本和共享訪問模式。

  • SQL必須讚成或Serverless倉庫。

權限要求:

  • 創建一個連接,你必須是一個metastore管理員或用戶創建連接特權在統一目錄metastore連接到工作區。

  • 創建一個外國目錄,你必須有創建目錄許可metastore和連接的所有者或有創建外國目錄特權的連接。

額外的權限需求中指定的每個任務部分。

創建一個連接

指定路徑和憑證的連接來訪問外部數據庫係統。創建一個連接,您可以使用瀏覽器或數據創建連接SQL命令在磚磚筆記本或SQL查詢編輯器。

權限要求:Metastore管理員或用戶創建連接特權。

  1. 在你的磚工作區,點擊數據圖標數據

  2. 在左窗格中,展開外部數據菜單並選擇連接

  3. 點擊創建連接

  4. 輸入一個用戶友好的連接名

  5. 選擇連接類型(數據庫提供商,比如MySQL或PostgreSQL)。

  6. 輸入連接屬性(如主機信息、路徑和訪問憑證)。

    每個連接類型需要不同的連接信息。看到這篇文章你的連接類型,列在左側目錄。

  7. (可選)單擊測試連接確認它的工作原理。

  8. (可選)添加一個評論。

  9. 點擊創建

運行以下命令在筆記本或磚的SQL查詢編輯器。這個例子是連接一個PostgreSQL數據庫。選擇連接類型不同而有所不同。看到這篇文章你的連接類型,列在左側目錄。

創建連接<連接- - - - - -的名字>類型postgresql選項(主機“<主機名>”,港口<口>的,用戶“用戶> <”,密碼“<密碼>”);

我們建議您使用磚秘密而不是純文本字符串為敏感值等憑證。例如:

創建連接<連接- - - - - -的名字>類型postgresql選項(主機“<主機名>”,港口<口>的,用戶秘密(“< secret-scope >”,“< secret-key-user >”),密碼秘密(“< secret-scope >”,“< secret-key-password >”))

設置機密信息,請參閱保密管理

管理現有的連接信息,看到管理連接Lakehouse聯合會

創建一個外國目錄

外國目錄鏡像數據庫在外部數據係統,這樣您就可以查詢和管理使用磚和統一訪問數據在數據庫目錄。創建一個外國目錄,您使用一個連接到數據源已經定義。

創建一個外國目錄,可以使用瀏覽器或數據創建外國目錄SQL命令在磚磚筆記本或SQL查詢編輯器。

權限要求:創建目錄許可metastore和連接的所有權或創建外國目錄特權的連接。

  1. 在你的磚工作區,點擊數據圖標數據

  2. 單擊創建目錄按鈕。

  3. 創建一個新的目錄對話框中,輸入一個名稱的目錄和選擇一個類型外國

  4. 選擇連接提供對數據庫的訪問,你想鏡子作為統一目錄編目。

  5. 輸入的名稱數據庫您想要鏡子作為一個目錄。

    需求根據不同數據來源:

    • MySQL使用一個兩層的名稱空間,因此不需要數據庫名稱。

    • 用於連接在另一個磚工作區目錄,進入磚目錄的名字而不是數據庫名稱。

  6. 點擊創造。

  1. 運行以下SQL命令在筆記本或磚SQL編輯器。物品在括號中是可選的。替換占位符的值:

    • <目錄名稱>:磚的目錄的名稱。

    • <名稱>:連接對象路徑,指定了數據源和訪問憑證。

    • <數據庫名稱>:數據庫的名稱你想鏡子磚的一個目錄。不需要MySQL,它使用一個兩層的名稱空間。

    • < external-catalog-name >:Databricks-to-Databricks隻有:在外部數據磚工作區目錄的名稱,你是鏡像。看到創建一個外國目錄

    創建外國目錄(如果存在]<目錄- - - - - -的名字>使用連接<連接- - - - - -的名字>選項(數據庫“<數據庫名稱>”);

與外國目錄信息管理和工作,明白了與外國目錄管理和工作

限製

  • 在這個版本查詢是隻讀的。

  • 節流的連接使用磚SQL並發查詢限製的決定。在每個連接倉庫是沒有限製。

  • 在這個版本中疊加覆蓋範圍可能有限。支持疊加的列表中設置為每條連接類型(見左側目錄)。

  • 連接類型:磚正在添加額外的連接類型。

    接觸你的磚接觸了解的連接類型,很快就會被添加或連接類型的請求。

  • 私人鏈接和靜態IP範圍支持Serverless SQL倉庫在此版本中不可用。接觸你的磚接觸持續的規劃支持的詳細信息。

  • 在這個版本不支持Oauth。接觸你的磚接觸持續的規劃支持的詳細信息。

  • 你不能直接創建外國模式或外國表。接觸你的磚接觸持續的規劃支持的詳細信息。

  • MySQL連接器表在此版本中不支持大小寫敏感的。統一目錄中的所有表名轉換為小寫,這意味著查找必須使用小寫的名字。接觸你的磚接觸持續的規劃支持的詳細信息。

  • 表和模式與統一目錄名稱是無效的不支持而忽略統一目錄上創建一個目錄。看到命名規則和限製的列表限製