比較Auto Loader文件檢測模式

Auto Loader支持兩種檢測新文件的模式:目錄列表和文件通知。您可以在流重新啟動時切換文件發現模式,並且仍然獲得恰好一次的數據處理保證。

目錄列表模式

在目錄列表模式下,Auto Loader通過列出輸入目錄來識別新文件。目錄列表模式允許您快速啟動Auto Loader流,而無需任何權限配置,除了訪問雲存儲上的數據。

在Databricks Runtime 9.1及以上版本中,Auto Loader可以自動檢測文件是否按照詞法順序到達雲存儲,並顯著減少檢測新文件所需的API調用量。看到什麼是自動加載目錄列表模式?欲知詳情。

文件通知方式

文件通知模式利用雲基礎設施帳戶中的文件通知和隊列服務。Auto Loader可以自動設置通知服務和隊列服務,從輸入目錄訂閱文件事件。

對於大型輸入目錄或大量文件,文件通知模式具有更高的性能和可伸縮性,但需要設置額外的雲權限。有關更多信息,請參見什麼是自動加載文件通知模式?

模式支持的雲存儲

下麵列出了這些模式的可用性。

雲存儲

目錄清單

增量清單

文件的通知

AWS S3

所有版本

Databricks運行時9.1及以上版本

所有版本

ADLS代

所有版本

Databricks運行時9.1及以上版本

所有版本

GCS

所有版本

Databricks運行時9.1及以上版本

Databricks運行時9.1及以上版本

Azure Blob存儲

所有版本

不支持的

所有版本

ADLS Gen1

Databricks Runtime 7.3及以上版本

不支持的

不支持的

DBFS

所有版本

僅適用於掛載點

僅適用於掛載點