06-11-2021上午08:27
存儲在三角洲的格式我有Dataframe Adls,現在,當我試圖添加新行,三角洲湖應該更新,有沒有辦法,我可以刪除舊的現有記錄三角洲和添加新的更新記錄。
有一個獨特的列DataFrame存儲在三角洲的模式。我們可以檢查是否更新或新記錄。
06-18-202102:44點
您應該使用一個MERGE命令表匹配記錄的列上。三角洲湖不執行主鍵如果你隻添加重複的id將會出現。
合並將會提供你想要的功能。
https://docs.m.eheci.com/spark/latest/spark-sql/language-manual/delta-merge-into.html
10-03-2022十一10點
根據文檔,複製到被認為是等冪的,和連續運行時,它不應該重載已經加載文件。在我的例子中,我創建了一個從現有數據表在S3中(多文件)。然後,希望負載隻有新來的文件(批攝入),我試著複製,但它繼續,天真地重新加載從S3。
與合並我也試過,但它看起來像源不能拚花在S3中文件,它隻能同樣三角洲表嗎?
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。