取消
顯示的結果
而不是尋找
你的意思是:

檢查站從支流卡夫卡問題時加載數據

UmaMahesh1
尊敬的貢獻者三世

我有流筆記本,獲取信息並加載到adls彙合的卡夫卡的話題。這是一個流筆記本觸發連續處理。在裝貨前消息(Avro格式),我使用一些python平緩消息udf。加載adls時,除了卡夫卡的時間戳,我還添加了一個額外的時間戳,說LoadTs列使用當前時間戳來分析數據的延遲加載。

我麵臨的問題是,一些消息讓adls多次重複。

例如,如果我裝1000條消息上生成01-04-2023,然後卡夫卡的時間戳將01-04-2023和LoadTs 01-04-2023。

的1000條消息,一些隨機的消息數量(100年,20日等. .)再次獲得寫入adls 10-04-2023。卡夫卡的時間戳的消息得到複製仍然是01-04-2023。

我假設這個問題是因為檢查點功能。

做別人麵臨同樣的問題。或有人有什麼建議/想法如何避免呢?

1回複1

Avinash_94
新的貢獻者三世

最好的方法是不要依賴於卡夫卡的提交機製!我們可以存儲處理結果和消息抵消外部數據存儲在同一個數據庫中事務。所以,如果數據庫事務失敗,提交和處理都將失敗,將再次重做。否則,會成功的。表包含可以抵消信息模式{topic_name partition_id,抵消}。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map