取消
顯示的結果
而不是尋找
你的意思是:

特性請求三角洲表:重複的行

MRTN
新的貢獻者三世

deltaTable.dropDuplicates(列)將是一個非常好的特性,簡化了複雜的程序,提出在線。

還是我錯過任何現有的程序可以做到withouth合並操作或類似的嗎?

1接受解決方案

接受的解決方案

MRTN
新的貢獻者三世
2回答2

Hubert_Dudek1
尊敬的貢獻者三世

是很有幫助的。目前,最好的方法就是讀表dataframe和使用Pyspark dropDuplicates ()。

#加載表df = spark.table (yourtable) #刪除重複的基於Id和名稱列df = df。dropDuplicates ([" Id ", "名稱"])#覆蓋的原始表結果dataframe df.write.mode .saveAsTable(“覆蓋”)(“yourtable”)

MRTN
新的貢獻者三世

我創建了一個特性請求三角洲表中的項目:(特性請求)重複數據刪除現有表·問題# 1767·delta-io /δ(github ....

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map