AWS膠目錄w /δ表連接到數據……-磚- 34742

nickagel · ‎08-12-2022

我發布了同樣的問題堆棧溢出試圖最大化達到這裏&潛在地提高磚的這個問題。

我試圖從我的AWS查詢三角洲表膠目錄在磚的SQL引擎。他們在三角洲湖格式存儲。我有膠水爬蟲自動化模式。目錄與非增量表設置和功能。設置通過磚加載可用的每個數據庫表的目錄&但查詢失敗由於磚使用蜂巢代替三角洲的閱讀。

檢測到不兼容的格式。磚三角洲的事務日誌發現的s3: / /公司/俱樂部/附件/ _delta_log’,但你正試圖從“s3: / /公司/俱樂部/附件的使用格式(“蜂巢”)。您必須使用的格式(“δ”)當閱讀和寫作δ表。禁用此檢查,設置spark.databricks.delta.formatCheck.enabled = false來了解更多關於三角洲,明白了https://docs.m.eheci.com/delta/index.html

= >數據訪問配置SQL倉庫設置

spark.databricks.hive.metastore.glueCatalog。啟用:真

爬蟲使用AWS三角洲湖設置產生以下表的元數據

{" StorageDescriptor ":{“關口”:{“FieldSchema”:[{“名稱”:“id”,“類型”:“弦”、“評論”:"},{"名稱":“媒體”、“類型”:“弦”、“評論”:"},{"名稱":“media_type”、“類型”:“弦”、“評論”:"},{"名稱":“標題”,“類型”:“弦”、“評論”:"},{"名稱":“類型”,“類型”:“短整型”、“評論”:"},{"名稱":“clubmessage_id”、“類型”:“弦”、“評論”:“}]},“位置”:“s3: / /公司/俱樂部/附件/ _symlink_format_manifest”、“inputFormat”:“org.apache.hadoop.hive.ql.io。SymlinkTextInputFormat”、“outputFormat org.apache.hadoop.hive.ql.io“:”。HiveIgnoreKeyTextOutputFormat”、“壓縮”:“假”、“numBuckets”:“1”,“SerDeInfo”:{“名稱”:“”,“serializationLib”:“org.apache.hadoop.hive.ql.io.parquet.serde。ParquetHiveSerDe”、“參數”:{}},“bucketCols”: [],“sortCols”:[],“參數”:{“UPDATED_BY_CRAWLER”:“CRAWLER_NAME”、“CrawlerSchemaSerializerVersion”:“1.0”,“CrawlerSchemaDeserializerVersion”:“1.0”,“分類”:“鋪”},“SkewedInfo ": {},“storedAsSubDirectories”:“假”},“參數”:{“UPDATED_BY_CRAWLER”:“CRAWLER_NAME”、“CrawlerSchemaSerializerVersion”:“1.0”,“CrawlerSchemaDeserializerVersion”:“1.0”,“分類”:“鋪”}}

nickagel · ‎08-12-2022

我有一個中間的解決方案使用磚。但我不認為這是一個妥善解決的問題

{“Sid”:“BlockDeltaLog”、“效應”:“否認”、“行動”:“s3: *”、“資源”:["攻擊:aws: s3:::桶”),“條件”:{" StringLike ": {“s3:前綴”:(“* * _delta_log / * *”)}}}

Hubert_Dudek1 · ‎08-12-2022

默認情況下AWS膠水隻支持拚花。

您可以使用連接器的市場https://go.aws/3pdgoiG

nickagel · ‎08-13-2022

不幸的是我不想讀與AWS膠工作。這是嚴格查詢中引用的數據通過數據磚SQL引擎膠水目錄指向三角洲湖表

Vidula · ‎09-10-2022

嗨@Nick Agel

希望一切都好!隻是想檢查如果你能解決你的問題,你會很高興分享解決方案或答案標記為最佳?其他的請讓我們知道如果你需要更多的幫助。

我們很想聽到你的聲音。

謝謝!

磚

AWS膠目錄w /δ表連接到磚的SQL引擎-檢測到不兼容的格式。