跳轉到主要內容

lakehouse編目數據

整個平台提供無縫的訪問需要很強的目錄服務器Beplay体育安卓版本

使用AWS膠作為磚的一個目錄

發現數據在所有你的服務,你需要一個強大的目錄能夠發現和訪問數據。AWS膠服務是一個Apache-compatible蜂巢serverless metastore,允許您輕鬆地在AWS服務,共享表元數據的應用程序或AWS帳戶。磚和三角洲湖與AWS膠發現集成數據在你的組織和注冊數據磚之間在三角洲湖和發現數據實例。

好處

磚是預先集成與AWS膠水

圖標的圖形

簡單的

簡化了管理通過使用相同的AWS膠跨多個磚工作區目錄。

家圖標

安全

集成安全通過身份和訪問管理憑據直通AWS膠元數據。詳細說明,請參閱磚的博客介紹磚AWS我憑據直通。

圖標的圖形

beplay娱乐ios

更容易訪問元數據在亞馬遜在AWS服務和訪問數據編目膠水。

磚三角洲湖與AWS核心服務的集成

該參考實現展示了獨特的定位數據磚三角洲湖與AWS集成核心服務,幫助您解決最複雜的數據湖的挑戰。三角洲湖上麵運行的S3,集成與亞馬遜運動,AWS膠水,亞馬遜雅典娜,亞馬遜紅移和亞馬遜QuickSight,僅舉幾例。

如果您是三角洲湖,你可以學習更多在這裏

delta-lake-code-imgs
icon-orange-hive-metastore-execution

亞馬遜雅典娜和轉眼間支持三角洲湖

當一個外部表中定義的蜂巢metastore使用manifest文件,轉眼間和亞馬遜雅典娜可以使用中的文件列表清單文件而不是找到文件目錄清單。這些表可以查詢就像表中存儲的數據格式像拚花。

把磚與AWS膠水

步驟1

如何配置一個磚集群訪問AWS膠目錄嗎

發射

第一次啟動磚計算集群必要的AWS膠目錄我的角色。我的角色和政策需求中明確提出以循序漸進的方式磚AWS膠Metastore文檔

在這個示例中,創建一個叫做Field_Glue_Role AWS IAM的作用,也有授權訪問S3 bucket。把角色集群配置,作為演示視頻中描述。

觀看演示視頻

delta-lake-code-imgs

更新

接下來,火花配置屬性集群的配置必須設置集群啟動前,如何更新視頻所示。

了解如何更新數據磚集群火花配置屬性

delta-lake-code-imgs

步驟2

HSetting AWS膠數據庫使用磚筆記本

delta-lake-code-imgs

附加

AWS膠之前創建一個數據庫,將集群附加到你的筆記本,在上一步中創建和測試您的設置與這裏顯示的命令。

delta-lake-code-imgs

驗證

然後驗證相同的數據庫使用AWS膠控製台顯示列表和列表的數據庫。

delta-lake-code-imgs

驗證

創建一個新的AWS膠水直接從筆記本電腦數據庫,並驗證新的AWS膠數據庫已經被該證演出成功創建數據庫。AWS膠數據庫也可以通過查看數據窗格。

步驟3

創建一個三角洲湖表,並使用相同的metastore清單文件

delta-lake-code-imgs

創建和目錄

創建和目錄表直接從筆記本到AWS膠數據目錄。指AWS膠填充數據目錄創建和使用爬蟲編目表。

這裏的演示數據集是來自電影推薦網站MovieLens,這是由電影評級。創建一個DataFrame python代碼。

delta-lake-code-imgs

注冊

然後注冊DataFrame臨時表和訪問它使用SQL命令。

delta-lake-code-imgs

三角洲湖

現在創建一個三角洲湖表使用前麵步驟中創建的臨時表和SQL命令。

注意:很容易創建一個三角洲湖表中描述三角洲湖快速入門指南

delta-lake-code-imgs

為亞馬遜雅典娜生成一個清單

現在生成manifest文件要求亞馬遜雅典娜使用以下步驟。

1。通過運行Scala方法生成體現。記得前綴的細胞% scala如果您已經創建了一個python, SQL或R筆記本。

2。創建一個表在蜂房裏metastore連接到雅典娜使用特殊的格式SymlinkTextInputFormat和清單文件位置。

在示例代碼中,創建清單文件s3a: / / aws-airlifts movies_delta / _symlink_format_manifest /文件的位置。

步驟4

查詢使用亞馬遜雅典娜三角洲湖表

亞馬遜雅典娜

雅典娜是一個serverless服務,不需要任何基礎設施管理和維護。因此,您可以查詢三角洲表不需要磚集群運行。

從亞馬遜雅典娜控製台,選擇數據庫,然後預覽表如視頻所示。

video_thumb

結論

整合AWS膠提供了一個強大的serverless metastore所有企業戰略使用AWS的生態係統。提高數據的可靠性湖泊三角洲湖和提供無縫、serverless數據訪問通過集成與亞馬遜雅典娜。磚Lakehouse平台大國戰略AWS湖,使數據分Beplay体育安卓版本析師、工程師和數據科學家獲得性能和可靠的數據訪問。

資源

視頻

博客

客戶的故事

準備好開始了嗎?

Baidu
map