使用自動加載程序和統一目錄
自動加載器可以安全地攝取數據從外部位置配置統一目錄。了解更多關於安全地連接存儲和統一目錄,看看管理外部位置和存儲憑證。自動加載程序依賴於結構化流增量處理;建議和限製使用統一的目錄和結構化流。
警告
你必須啟動集群與單用戶訪問模式運行自動加載程序統一目錄。
攝入數據從外部位置由統一目錄管理和自動加載程序
您可以使用自動加載程序從任何外部攝取數據位置由統一目錄管理。你必須有讀文件
外部位置的權限。
請注意
統一目錄外部位置不支持跨雲或cross-account配置自動加載程序。
默認目錄清單模式的支持。使用文件通知模式,您必須配置額外的雲憑據連接文件通知和隊列服務;看到比較汽車加載程序文件檢測模式。
為自動加載程序指定地點統一資源目錄
統一目錄安全模型假設所有存儲位置中引用一個工作負載將由統一目錄管理。磚建議總是將檢查點和模式演化信息存儲在存儲單元由統一目錄管理。統一目錄不允許巢檢查點或模式推理與進化表目錄下的文件。
例子
下例子假設執行用戶所有者權限在目標表和以下配置和資助:
存儲位置 |
格蘭特 |
---|---|
s3: / / autoloader-source / json數據 |
讀文件 |
s3: / / dev-bucket |
讀文件、寫文件、創建表 |
使用自動加載器加載一個統一目錄管理表
checkpoint_path=“s3: / / dev-bucket / _checkpoint / dev_table”(火花。readStream。格式(“cloudFiles”)。選項(“cloudFiles.format”,“json”)。選項(“cloudFiles.schemaLocation”,checkpoint_path)。負載(“s3: / / autoloader-source / json數據”)。writeStream。選項(“checkpointLocation”,checkpoint_path)。觸發(availableNow=真正的)。toTable(“dev_catalog.dev_database.dev_table”))