我發布了同樣的問題堆棧溢出試圖最大化達到這裏&潛在地提高磚的這個問題。
我試圖從我的AWS查詢三角洲表膠目錄在磚的SQL引擎。他們在三角洲湖格式存儲。我有膠水爬蟲自動化模式。目錄與非增量表設置和功能。設置通過磚加載可用的每個數據庫表的目錄&但查詢失敗由於磚使用蜂巢代替三角洲的閱讀。
檢測到不兼容的格式。磚三角洲的事務日誌發現的s3: / /公司/俱樂部/附件/ _delta_log’,但你正試圖從“s3: / /公司/俱樂部/附件的使用格式(“蜂巢”)。您必須使用的格式(“δ”)當閱讀和寫作δ表。禁用此檢查,設置spark.databricks.delta.formatCheck.enabled = false來了解更多關於三角洲,明白了https://docs.m.eheci.com/delta/index.html
= >數據訪問配置SQL倉庫設置
spark.databricks.hive.metastore.glueCatalog。啟用:真
爬蟲使用AWS三角洲湖設置產生以下表的元數據
{" StorageDescriptor ":{“關口”:{“FieldSchema”:[{“名稱”:“id”,“類型”:“弦”、“評論”:"},{"名稱":“媒體”、“類型”:“弦”、“評論”:"},{"名稱":“media_type”、“類型”:“弦”、“評論”:"},{"名稱":“標題”,“類型”:“弦”、“評論”:"},{"名稱":“類型”,“類型”:“短整型”、“評論”:"},{"名稱":“clubmessage_id”、“類型”:“弦”、“評論”:“}]},“位置”:“s3: / /公司/俱樂部/附件/ _symlink_format_manifest”、“inputFormat”:“org.apache.hadoop.hive.ql.io。SymlinkTextInputFormat”、“outputFormat org.apache.hadoop.hive.ql.io“:”。HiveIgnoreKeyTextOutputFormat”、“壓縮”:“假”、“numBuckets”:“1”,“SerDeInfo”:{“名稱”:“”,“serializationLib”:“org.apache.hadoop.hive.ql.io.parquet.serde。ParquetHiveSerDe”、“參數”:{}},“bucketCols”: [],“sortCols”:[],“參數”:{“UPDATED_BY_CRAWLER”:“CRAWLER_NAME”、“CrawlerSchemaSerializerVersion”:“1.0”,“CrawlerSchemaDeserializerVersion”:“1.0”,“分類”:“鋪”},“SkewedInfo ": {},“storedAsSubDirectories”:“假”},“參數”:{“UPDATED_BY_CRAWLER”:“CRAWLER_NAME”、“CrawlerSchemaSerializerVersion”:“1.0”,“CrawlerSchemaDeserializerVersion”:“1.0”,“分類”:“鋪”}}