再保險:表後ZORDER需要覆蓋嗎?頁2 -磚- 20837

numersoz · ‎11-23-2022

你好,

將新值附加到三角洲表後,我需要刪除重複的行。

使用PySpark刪除重複的行後,我覆蓋表(保持模式)。

我的問題是,我該怎麼做ZORDER嗎?

另一個問題,有另一種減少重複嗎?我試著減少重複使用SQL CTE,但沒有成功。(錯誤:刪除隻支持v2表。)

#添加新數據:data.write.mode(“追加”).format .saveAsTable(“δ”)(“table_name”) #讀表:df =火花。sql (f“SELECT * FROM {table_name}”) #降低重複:df = df。dropDuplicates ([“col1”、“col2”]) #重寫數據:df.write.format .mode(“δ”)(“覆蓋”)。選項(“overwriteSchema”,“假”).saveAsTable (f“{table_name}”)

DeepakMakwana74 · ‎11-27-2022

Hii @Nurettin Ersoz

嚐試使用增量加載的數據所以它將避免重複,你可以使用滿載後如果你有升級您的數據