取消
顯示的結果
而不是尋找
你的意思是:

如何使用cloudFiles完全覆蓋目標

BradSheridan
價值貢獻

嘿社區! !我有一個客戶,每天將產生一個CSV文件,需要從青銅- >銀。不幸的是,這個源文件將永遠是一個完整的數據....沒有增量。我想使用自動裝卸機/ cloudFiles checkpointLocation利用,就會觸發一次。然而,我需要確保所有的拚花銀S3 bucket中的文件是完全刪除/覆蓋每次運行。.writeStream .option使用的是什麼呢?

1接受解決方案

接受的解決方案

werners1
尊敬的貢獻者三世
9回複9

werners1
尊敬的貢獻者三世

由於@Werner Stinckens……是的,如果我用δ,將工作,但我用.writeStream.format(“鋪”),得到的錯誤“數據源鋪不支持完整的輸出模式”。我不使用δb / c一旦鑲花文件被寫入到S3,然後我會爬AWS膠水。我猜另一種選擇是使用增量作為輸出,做.outputMode(“完整的”),然後創建一個清單文件雅典娜查詢和跳過膠履帶?

werners1
尊敬的貢獻者三世

或者使用老式的批處理而不是流?

最初是的,我試過,但問題是,csv1將加工成銀桶……所有的好。然後第二天csv2 csv1一樣的青銅S3 bucket的土地,並將所有行從csv1可能還有一些新的數據或更新數據。下次批處理運行時,它將讀取這些文件在白銀因此複製數據。這就是為什麼我試圖自動裝卸機…因為它跟蹤哪些文件已經在源進行處理。我準備嚐試清單文件的想法現在....更多的很快

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map