再保險:自動裝卸機:如何避免重疊在文件-磚- 23954

werners1 · ‎11-03-2022

我想使用自動裝卸機處理文件被放在我們的數據。

假設遠東每15分鍾,拚花文件編寫。然而這些文件包含重疊的數據。

現在,每2小時我要處理新數據(自動裝卸機),合並成一個三角洲湖表。

這似乎很簡單,但不幸的是它不是:

自動裝卸機獲取新數據時,流媒體查詢將包含重複數據的兩種類型:實際dup(可以用dropDuplicates下降),而且不同版本的相同的記錄(記錄可以在一段時間內多次更新)。我想過程隻有最新版本(基於修改日期列)。

最後一部分,我不知道我如何可以解決這個流查詢。

批,我將使用一個窗口功能分區的語義關鍵(id)和時間戳排序。

但是對於流媒體這是不可能的。

那麼,有什麼想法?

基本上它是“火花流保持最新記錄組的問題。

Hubert_Dudek1 · ‎11-03-2022

forEachBatch然後合並呢?

另外,另一個進程運行,將幹淨的更新使用窗口函數,正如你所說。

werners1 · ‎11-03-2022

forEachBatch是選項之一,但隨後合並需要很長時間(每個文件合並)。

也(我忘了提到):一個文件也可以包含多個版本的一個記錄。

不使用自動裝卸機似乎目前的路要走,但它畢竟不就好了,如果它是可能的很多開銷。