我想使用自動裝卸機處理文件被放在我們的數據。
假設遠東每15分鍾,拚花文件編寫。然而這些文件包含重疊的數據。
現在,每2小時我要處理新數據(自動裝卸機),合並成一個三角洲湖表。
這似乎很簡單,但不幸的是它不是:
自動裝卸機獲取新數據時,流媒體查詢將包含重複數據的兩種類型:實際dup(可以用dropDuplicates下降),而且不同版本的相同的記錄(記錄可以在一段時間內多次更新)。我想過程隻有最新版本(基於修改日期列)。
最後一部分,我不知道我如何可以解決這個流查詢。
批,我將使用一個窗口功能分區的語義關鍵(id)和時間戳排序。
但是對於流媒體這是不可能的。
那麼,有什麼想法?
基本上它是“火花流保持最新記錄組的問題。