從conflu Re:檢查點問題當加載數據…-磚- 6065

UmaMahesh1 · ‎04-11-2023

我有流筆記本,獲取信息並加載到adls彙合的卡夫卡的話題。這是一個流筆記本觸發連續處理。在裝貨前消息(Avro格式),我使用一些python平緩消息udf。加載adls時,除了卡夫卡的時間戳,我還添加了一個額外的時間戳,說LoadTs列使用當前時間戳來分析數據的延遲加載。

我麵臨的問題是,一些消息讓adls多次重複。

例如,如果我裝1000條消息上生成01-04-2023,然後卡夫卡的時間戳將01-04-2023和LoadTs 01-04-2023。

的1000條消息,一些隨機的消息數量(100年,20日等. .)再次獲得寫入adls 10-04-2023。卡夫卡的時間戳的消息得到複製仍然是01-04-2023。

我假設這個問題是因為檢查點功能。

做別人麵臨同樣的問題。或有人有什麼建議/想法如何避免呢?

Avinash_94 · ‎04-14-2023

最好的方法是不要依賴於卡夫卡的提交機製!我們可以存儲處理結果和消息抵消外部數據存儲在同一個數據庫中事務。所以,如果數據庫事務失敗,提交和處理都將失敗,將再次重做。否則,會成功的。表包含可以抵消信息模式{topic_name partition_id,抵消}。

磚