我從策劃刪除數據路徑根據日期列在每次運行和附加數據,使用下麵的腳本。我擔心的是,就在刪除操作後,如果出現任何網絡問題,工作停止之前附加curated_path分段數據。三角洲湖(ACID屬性)如何處理這種情況,這個回滾到之前的狀態,因為它沒有添加了數據?
或如何刪除和添加適當的三角洲湖避免數據丟失嗎?
提前謝謝! !
df_curated = spark.read.format(δ).load (curated_path)
df_curated.createOrReplaceTempView (“curated_view”)
是= "刪除從curated_view日期> = " +“{}”.format (daysback_date)
spark.sql(是)
df_staged.write.partitionBy (“”) .format(δ).mode(“追加”).save (curated_path)
是的,δ是酸,所以應該可以正常工作。作為一種替代方法,您可以考慮合並(我敢打賭,你想更換日期和更新)
https://learn.microsoft.com/en-us/azure/databricks/sql/language-manual/delta-merge-into