解決:特性請求三角洲表:刪除重複的行-磚- 4306

MRTN · ‎05-16-2023

deltaTable.dropDuplicates(列)將是一個非常好的特性,簡化了複雜的程序,提出在線。

還是我錯過任何現有的程序可以做到withouth合並操作或類似的嗎?

MRTN · ‎05-16-2023

我創建了一個特性請求三角洲表中的項目:(特性請求)重複數據刪除現有表·問題# 1767·delta-io /δ(github ....

Hubert_Dudek1 · ‎05-16-2023

是很有幫助的。目前,最好的方法就是讀表dataframe和使用Pyspark dropDuplicates ()。

#加載表df = spark.table (yourtable) #刪除重複的基於Id和名稱列df = df。dropDuplicates ([" Id ", "名稱"])#覆蓋的原始表結果dataframe df.write.mode .saveAsTable(“覆蓋”)(“yourtable”)

MRTN · ‎05-16-2023

我創建了一個特性請求三角洲表中的項目:(特性請求)重複數據刪除現有表·問題# 1767·delta-io /δ(github ....

磚

特性請求三角洲表:重複的行