我有流筆記本,獲取信息並加載到adls彙合的卡夫卡的話題。這是一個流筆記本觸發連續處理。在裝貨前消息(Avro格式),我使用一些python平緩消息udf。加載adls時,除了卡夫卡的時間戳,我還添加了一個額外的時間戳,說LoadTs列使用當前時間戳來分析數據的延遲加載。
我麵臨的問題是,一些消息讓adls多次重複。
例如,如果我裝1000條消息上生成01-04-2023,然後卡夫卡的時間戳將01-04-2023和LoadTs 01-04-2023。
的1000條消息,一些隨機的消息數量(100年,20日等. .)再次獲得寫入adls 10-04-2023。卡夫卡的時間戳的消息得到複製仍然是01-04-2023。
我假設這個問題是因為檢查點功能。
做別人麵臨同樣的問題。或有人有什麼建議/想法如何避免呢?