我們在磚使用自動裝卸機讀文件。源係統是充分的完整的數據快照文件。所以我們想三角洲表中讀取數據和寫在覆蓋模式下所有數據被新老數據。同樣為其他用例,我們需要合並和更新現有的三角洲表中記錄。
而自動裝卸機隻支持在append模式,有什麼選項寫在覆蓋和合並。
下麵是我們正在使用的代碼寫在使用自動裝卸機append模式
df.writeStream.format(“δ”)。選項(“mergeSchema”,“真正的”).outputMode(“追加”)。選項(“checkpointLocation checkpointLocation) .trigger(一次= True) .start (deltaLakePath)
@Ranjeet賈斯瓦爾,
支持afaik合並:
https://docs.m.eheci.com/_static/notebooks/merge-in-streaming.html
這個鏈接做一些聚合當然可以查找。
有趣的部分是outputMode(“更新”),和foreachBatch函數的實際合並