由於@Werner Stinckens……是的,如果我用δ,將工作,但我用.writeStream.format(“鋪”),得到的錯誤“數據源鋪不支持完整的輸出模式”。我不使用δb / c一旦鑲花文件被寫入到S3,然後我會爬AWS膠水。我猜另一種選擇是使用增量作為輸出,做.outputMode(“完整的”),然後創建一個清單文件雅典娜查詢和跳過膠履帶?
最初是的,我試過,但問題是,csv1將加工成銀桶……所有的好。然後第二天csv2 csv1一樣的青銅S3 bucket的土地,並將所有行從csv1可能還有一些新的數據或更新數據。下次批處理運行時,它將讀取這些文件在白銀因此複製數據。這就是為什麼我試圖自動裝卸機…因為它跟蹤哪些文件已經在源進行處理。我準備嚐試清單文件的想法現在....更多的很快