3周之前
你好,
我麵臨一個問題的數據被錯過了。
我在讀azure事件的數據中心和壓扁後json數據我將它存儲在檢查機關文件,然後使用另一個磚筆記本δ表上執行合並操作通過添加一些etl列。
然而在某個地方的記錄越來越想念。
我已經安排了工作,每小時運行一次。
有人能幫幫我。
沒有實際的原始數據,很難找出問題所在。可能是代碼也可以是事件中心。我的原始事件中心數據存儲在一個數據湖和使用自動裝卸機進行進一步處理。
在代碼中,引起了我的注意的一件事是dropduplicates和不同的使用。你確定你不是放棄太多?
我基於我的主鍵刪除重複的多個記錄來自事件的中心一個主鍵和我想要最新的一個也我做訂單op_ts列以便我得到最新的記錄。
不同的代碼中可以創建任何問題我不確定。
理想情況下你仍然可以讀取事件中心事件,看看失蹤的。如果是這樣的:它必須引發相關。如果他們已經走了,很難說。我將事件存儲在原始表,這樣你就可以做有效性檢查。}
我能看到丟失的記錄在事件中心。我應該使用forEachBatch在我的代碼。?或任何其他建議。
基本上你想做一些重複的清理。你想為每個microbatch進來我想這樣做。所以實際上,創建一個函數在foreachbatch de dedup等和調用它。https://docs.m.eheci.com/en/delta/merge.html data-deduplication-when-writing-into-delta-tables
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。