我想實現一個流管道運行小時使用火花結構化流,Scala和δ表。管道將過程不同的項目和他們的細節。
已經存在的源是一個三角洲表,寫每小時使用”streamWrite”命令。輸出應該是另一個三角洲表,數據從源表,執行一些轉換和寫入目標表。
我麵臨的問題是,在不同的時刻,源表將新版本的物品處理在過去(這些不是重複的信息,隻是一個更新版本的相同的項目)。在這些情況下,我需要更新目標表中的項隻為了保持最新版本。
根據這、結構化流隻能用於“追加”模式,但對於我的用例寫作時我需要更新數據。
是否有辦法讓這個工作嗎?
我覺得這應該是一個很常見的場景,許多實現流媒體將不得不麵對在某種程度上,但我沒能找到一個辦法解決或任何其他出版解決方案到目前為止。