我有一個要求,我需要運用逆DQ裁決無效數據表來跟蹤。我可以使用以下方法:
進口dlt
規則= {}
quarantine_rules = {}
規則(“valid_website”) = "(網站不是零)”
規則(“valid_location”) = "(位置不是NULL)”
#連接逆規則
quarantine_rules [“invalid_record”] =“不是({0})”。. join (rules.values格式(”和“()))
@dlt.table (
name = " raw_farmers_market "
)
def get_farmers_market_data ():
回報(
spark.read.format (csv)。選項(“頭”,“真正的”)
.load (' / databricks-datasets /網站/ farmers_markets_geographic_data /數據- 001 / ')
)
@dlt.table (
name = " valid_farmers_market "
)
@dlt.expect_all_or_drop(規則)
def get_valid_farmers_market ():
回報(
dlt.read (“raw_farmers_market”)
.select (“MarketName”、“網站”,“位置”,“狀態”,
“臉譜”、“推特”、“Youtube”、“有機”、“updateTime”)
)
@dlt.table (
name = " invalid_farmers_market "
)
@dlt.expect_all_or_drop (quarantine_rules)
def get_invalid_farmers_market ():
回報(
dlt.read (“raw_farmers_market”)
.select (“MarketName”、“網站”,“位置”,“狀態”,
“臉譜”、“推特”、“Youtube”、“有機”、“updateTime”)
)
然而,當我將無效數據存儲在另一個表。invalid_farmers_market。將添加的所有行這是無效的,但是我想申請後2規則。
規則(“valid_website”) = "(網站不是零)”
規則(“valid_location”) = "(位置不是NULL)”
我想知道的是有什麼方式我可以理解無效表中的特定行因為特定的規則。通過規則(“valid_website”)或規則(“valid_location”)這兩個。這樣我就能采取適當的行動為特定列。
你可以獲得更多的信息從DLT事件日誌在三角洲所以你可以加載表https://docs.m.eheci.com/workflows/delta-live-tables/delta-live-tables-event-log.html data-qualit……