取消
顯示的結果
而不是尋找
你的意思是:

如何防止重複條目進入三角洲湖Azure存儲

User16826994223
尊敬的貢獻者三世

存儲在三角洲的格式我有Dataframe Adls,現在,當我試圖添加新行,三角洲湖應該更新,有沒有辦法,我可以刪除舊的現有記錄三角洲和添加新的更新記錄。

有一個獨特的列DataFrame存儲在三角洲的模式。我們可以檢查是否更新或新記錄。

2回答2

Ryan_Chynoweth
尊敬的貢獻者三世

您應該使用一個MERGE命令表匹配記錄的列上。三角洲湖不執行主鍵如果你隻添加重複的id將會出現。

合並將會提供你想要的功能。

https://docs.m.eheci.com/spark/latest/spark-sql/language-manual/delta-merge-into.html

652852年
新的貢獻者三世

根據文檔,複製到被認為是等冪的,和連續運行時,它不應該重載已經加載文件。在我的例子中,我創建了一個從現有數據表在S3中(多文件)。然後,希望負載隻有新來的文件(批攝入),我試著複製,但它繼續,天真地重新加載從S3。

與合並我也試過,但它看起來像源不能拚花在S3中文件,它隻能同樣三角洲表嗎?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map