Re:刪除和添加在三角洲路徑-磚- 13165

KKo · ‎01-06-2023

我從策劃刪除數據路徑根據日期列在每次運行和附加數據,使用下麵的腳本。我擔心的是,就在刪除操作後,如果出現任何網絡問題,工作停止之前附加curated_path分段數據。三角洲湖(ACID屬性)如何處理這種情況,這個回滾到之前的狀態,因為它沒有添加了數據?

或如何刪除和添加適當的三角洲湖避免數據丟失嗎?

提前謝謝! !

df_curated = spark.read.format(δ).load (curated_path)

df_curated.createOrReplaceTempView (“curated_view”)

是= "刪除從curated_view日期> = " +“{}”.format (daysback_date)

spark.sql(是)

df_staged.write.partitionBy (“”) .format(δ).mode(“追加”).save (curated_path)

Hubert_Dudek1 · ‎01-07-2023

是的,δ是酸,所以應該可以正常工作。作為一種替代方法,您可以考慮合並(我敢打賭,你想更換日期和更新)

Aviral-Bhardwaj · ‎01-07-2023

感謝的人

Kaniz · ‎01-11-2023

嗨@Kris柯伊拉臘,我們一直沒有收到你自從上次反應@Hubert杜德克,我檢查,看看他的建議幫助你。

否則,如果你有任何解決方案,請與社區分享,因為它可以幫助別人。

同時,請別忘了點擊“選擇最佳”按鈕時提供的信息幫助解決你的問題。

磚