我用統一編目集群。我有一個要求讀取源文件放置的團隊在一個特定的位置(降落)在S3中。我已經使用metastore指向不同的桶。我需要使用外部位置指向降落在S3中?此外,我怎樣才能從這些文件讀取數據?
考慮到你有兩種選擇:
外部位置:你可以創建一個外部位置統一metastore指向在S3中著陸。這允許統一訪問文件的位置,而無需複製或移動到默認位置由統一管理。您可以配置外部位置使用統一目錄管理工具或通過使用統一SDK / API。
創建外部位置,指定S3 bucket和前綴(文件夾)的文件。團結能夠直接從S3指定位置讀取數據沒有任何數據移動。
直接讀:團結也能夠直接從文件讀取數據在S3中而不需要外部的位置。在這種方法中,您可以直接在S3著陸桶使用SQL查詢文件或火花命令。統一將利用其潛在的查詢引擎執行分布式處理和檢索S3的數據文件。
讀取數據直接從S3著陸桶中,您可以使用統一編目的SQL或火花接口與數據交互和執行必要的操作,比如過濾、聚合,或者加入數據集。