取消
顯示的結果
而不是尋找
你的意思是:

表後ZORDER需要覆蓋嗎?

numersoz
新的貢獻者三世

你好,

將新值附加到三角洲表後,我需要刪除重複的行。

使用PySpark刪除重複的行後,我覆蓋表(保持模式)。

我的問題是,我該怎麼做ZORDER嗎?

另一個問題,有另一種減少重複嗎?我試著減少重複使用SQL CTE,但沒有成功。(錯誤:刪除隻支持v2表。)

#添加新數據:data.write.mode(“追加”).format .saveAsTable(“δ”)(“table_name”) #讀表:df =火花。sql (f“SELECT * FROM {table_name}”) #降低重複:df = df。dropDuplicates ([“col1”、“col2”]) #重寫數據:df.write.format .mode(“δ”)(“覆蓋”)。選項(“overwriteSchema”,“假”).saveAsTable (f“{table_name}”)

5回複5

DeepakMakwana74
新的貢獻者三世

Hii @Nurettin Ersoz

嚐試使用增量加載的數據所以它將避免重複,你可以使用滿載後如果你有升級您的數據

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map