取消
顯示的結果
而不是尋找
你的意思是:

如何激活ignoreChanges三角洲表read_stream生活嗎?

adrianlwn
新的貢獻者三世

大家好,

我用DLT(δ生活表)和我實現的一些變化數據捕獲用於重複數據刪除。現在我創建一個下遊表讀取DLT作為流(dlt.read_stream(“<表>”))。

我一直收到這個錯誤:

>檢測數據更新(例如部分- 00000 - 6723832 - a - b8ca - 4表達a20 b576 - d69bd5e42652 c000.snappy.parquet)在源表版本11。這是目前不支持。如果你想忽略更新,設置選項“ignoreChanges”到“真正的”。如果你想反映的數據更新,請重啟該查詢以全新的關卡目錄。

我試過這些選項激活配置:

@dlt。視圖(name = " _wp_strategies_dup "評論=“此表包含測試策略表”,spark_conf = {“ignoreChanges”: "真正的"})
spark.readStream.option (“ignoreChanges”,“真正的”).table (“LIVE.wp_parameters”)
dlt.option (“ignoreChanges”,“真正的”).read_stream (“wp_parameters”)

到目前為止沒有任何工作。是因為與DLT這個配置是不可能的?或者是因為有另一種方式設置此配置?

18日回複18

fecavalc08
新的貢獻者三世

人發現了問題?我們麵臨著同樣的事情

阿瑪鬆
新的貢獻者二世

嗨@Kaniz開羅,

我工作在一個用例,保持客戶數據使用圖案架構使用三角洲生活表。

但我想也基於GDPR刪除數據。所以,我基本上已經嚐試使用簡單的刪除腳本刪除刪除消費者年齡超過5年從青銅,白銀和黃金表。

之後,我試圖再次運行DLT管道,遇到了像上麵提到的問題。

“發現一個數據更新(例如部分- 00000 - 6723832 - a - b8ca - 4表達a20 b576 - d69bd5e42652 c000.snappy.parquet)在源表版本11。這是目前不支持。如果你想忽略更新,設置選項“ignoreChanges”到“真正的”。如果你想反映的數據更新,請重啟這個查詢新的檢查點目錄。”

任何想法如何實現忽略變化和忽略DLT刪除嗎?

Hubert_Dudek1
尊敬的貢獻者三世

是的,這是一個痛苦。我敢打賭,您需要執行一個完整的更新與清洗檢查點。

SRK
貢獻者三世

我們找到了一個工作來解決這個問題:

df_table =火花。sql (f“SELECT * FROM Employee”)

df_table.write.mode(“追加”)。json (“/ mnt / temp_table /員工”,ignoreNullFields = False)

創建流表Employee_temp生活

評論”員工臨時“

作為

選擇

*

從cloud_files (“/ mnt / temp_table /員工”、“json”)

——創建和填充目標表。

創建或更新直播表dim_employee;

申請變更成

live.dim_employee

流(生活。Employee_temp)

(employeeid)

忽略NULL更新

序列由

load_datetime

存儲為

化合物2型;

Kaniz
社區經理
社區經理

嗨@Adrian洛溫斯坦(客戶),這將意味著很多如果你可以選擇“最佳答案“幫助別人找到正確答案更快。

這使得回答後出現問題,所以很容易找到在一個線程。

它還幫助我們馬克問題回答我們可以有更多的眼睛幫助別人有許多未解之謎。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map