我知道痛苦與上市azure法案就我而言我觸發頻率較低,但解決了這個問題
好的選擇可以文件通知模式另外你可以設置自己的隊列和事件網格有更多的控製(雖然第一次實驗可以用自動的):
文件的通知:使用Azure事件網格和隊列存儲服務訂閱文件事件從輸入目錄。自動加載程序自動設置網格和Azure事件隊列存儲服務。文件通知模式是更多的性能和可伸縮性大輸入目錄。使用這種模式,您必須配置權限Azure事件網格和隊列存儲服務和指定
.option (“cloudFiles.useNotifications”,“真正的”)
。文件通知支持ADLS Gen2和Azure Blob存儲。
來源:https://docs.microsoft.com/en-us/azure/databricks/spark/latest/structured-streaming/auto-loader-gen2
嗨@somanath Sankaran,
我將推薦使用觸發器。AvailableNow代替trigger.once。這是文檔的鏈接https://docs.m.eheci.com/release-notes/runtime/10.1.html triggeravailablenow-for-auto-loader
會回到你原來的問題,您可以使用增量清單。分區可以被認為是詞法下令如果數據處理一天一次,包含時間戳文件路徑可以被認為是詞法。
這裏的文檔https://docs.m.eheci.com/spark/latest/structured-streaming/auto-loader-gen2.html incremental-list……