跳轉到主要內容
公司博客上

改變你的AWS數據使用磚三角洲和湖AWS膠數據目錄服務

2019年9月3日 公司博客上

分享這篇文章

得到的早期預覽O ' reilly的新電子書一步一步的指導你需要開始使用三角洲湖。


在這篇文章我們將探索如何可靠、高效地改變你AWS數據湖成一個三角洲湖無縫地使用AWS膠數據目錄服務。AWS膠服務是一個Apache兼容蜂巢serverless metastore你可以很容易地共享表跨AWS服務元數據,應用程序,或AWS帳戶。

這提供了一些具體的好處:

  • 簡化了管理通過使用相同的AWS膠跨多個磚工作區目錄。
  • 簡化了集成安全通過身份和訪問管理憑據的元數據透傳AWS膠水。指的是磚的博客介紹磚AWS我憑據透傳一個詳細的解釋。
  • 更容易訪問元數據在亞馬遜在AWS服務和訪問數據編目膠水。

磚三角洲湖與AWS核心服務的集成

該參考實現展示了獨特的定位與AWS磚三角洲湖的集成核心服務幫助你解決你最複雜的數據湖挑戰。

概述

三角洲湖是什麼?

三角洲湖是一個開源存儲層,數據可靠性湖泊。三角洲湖提供ACID事務,可擴展的元數據處理,結合流媒體和批量數據處理。湖三角洲湖上運行你的現有數據,與Apache火花api完全兼容。

下載這個電子書了解關鍵數據可靠性挑戰麵臨的典型數據湖泊和三角洲湖如何幫助解決這些挑戰。

磚最近開源三角洲湖在2019年引發峰會。您可以了解更多關於三角洲湖delta.io

轉眼間和亞馬遜雅典娜兼容性支持三角洲湖

磚運行時的5.5,你現在可以查詢從轉眼間三角洲湖表和亞馬遜雅典娜。當一個外部表中定義的蜂巢metastore使用manifest文件,轉眼間和亞馬遜雅典娜在清單文件中使用的文件列表而不是找到的文件目錄清單。這些表可以查詢就像表中存儲的數據格式像拚花。

步驟1。如何配置一個磚集群訪問你的AWS膠目錄嗎

首先,您必須啟動磚計算集群必要的AWS膠目錄我的角色。我的角色和政策需求中明確提出以循序漸進的方式磚AWS膠Metastore文檔

在這個博客的目的,我創建了一個AWS叫做我的角色Field_Glue_Role也有授權訪問S3 bucket。我附上我的集群配置的角色,如圖1所示。

圖1所示。

https://www.youtube.com/watch?v=g73JZF1qgY4

接下來,火花配置屬性集群的配置必須設置之前向集群中啟動,如圖2所示。

圖2。更新數據磚集群火花配置屬性

https://www.youtube.com/watch?v=D1_L0tFEmEg

步驟2。數據庫設置AWS膠水使用磚筆記本

之前創建一個AWS膠數據庫集群附加到你的筆記本,在上一步中創建的,並測試您的設置發出以下命令:

測試AWS膠磚筆記本的數據庫設置

然後驗證相同的數據庫使用AWS膠控製台顯示列表和列表的數據庫。

驗證數據庫列表使用AWS膠控製台

現在我們準備創建一個新的AWS膠數據庫直接從我們的筆記本,如下所示:

,並驗證新的AWS膠數據庫已經被該證演出成功創建數據庫。AWS膠數據庫也可以通過查看數據窗格。

https://www.youtube.com/watch?v=NHrp3x-u7xk

步驟3。創建一個三角洲湖表,並使用相同的metastore清單文件

現在,讓我們創建和目錄表直接從筆記本到AWS膠數據目錄。是指如何AWS膠填充數據目錄創建和使用爬蟲編目表。

我用的是電影推薦網站MovieLens數據集是由電影評級。我第一次創建了一個DataFrame這個python代碼:

使用python代碼樣本DataFrame數據集

然後注冊DataFrame作為臨時表來使用SQL訪問它如下:

注冊一個DataFrame表可以通過SQL訪問上下文

現在讓我們創建一個三角洲湖表使用SQL和在前一步驟中創建的臨時表:

創建一個三角洲湖表使用SQL和臨時DataFrame表

注意:很容易創建一個表中描述這個三角洲湖三角洲湖三角洲湖快速入門指南

我們現在可以生成manifest文件要求亞馬遜雅典娜使用以下步驟。

  1. 通過運行Scala方法生成體現。記住與% scala前綴細胞如果您已經創建了一個python、SQL或R筆記本。

生成一個清單文件要求亞馬遜使用Scala雅典娜

  1. 創建一個表在蜂房裏metastore使用特殊格式與雅典娜SymlinkTextInputFormat和manifest文件位置:

創建表的蜂巢metastore使用特殊格式與雅典娜SymlinkTextInputFormat和清單文件位置

在上麵的示例代碼,請注意在創建清單文件s3a: / / aws-airlifts movies_delta / _symlink_format_manifest /文件的位置。

步驟4。查詢使用亞馬遜雅典娜三角洲湖表

雅典娜是一個serverless服務,不需要任何基礎設施管理和維護。因此,您可以查詢三角洲表不需要磚集群運行。

從亞馬遜雅典娜控製台,選擇您的數據庫,然後預覽表如下:

https://www.youtube.com/watch?v=zkr8fgjnxf0

結論

AWS膠水的支持下我們引入了一個強大的serverless metastore所有企業戰略使用AWS的生態係統。此外,我們正在提升您的數據的可靠性與三角洲湖湖和提供無縫serverless數據訪問為您的企業通過整合與亞馬遜雅典娜。

你現在可以安全地使分析師、工程師、數據和數據科學家使用磚統一分析平台數據戰略AWS湖。Beplay体育安卓版本

相關資源:

試一試!

免費試著磚

相關的帖子

看到所有公司博客上的帖子
Baidu
map