仍然相對較新的火花,更因此δ生活表道歉如果我錯過了一些基本的但這裏。
我們試圖通過三角洲住表運行一個筆記本,其中包含2的dlt裝飾的功能。表的裝飾和每個返回一個火花DataFrame是必需的。第一個裝飾函數將從外部數據庫,做一些處理函數,然後返回內下遊消費函數。然而,當我們開始DLT運行看看日誌,似乎筆記本4倍執行,並在最後3次火花DataFrame被下遊函數0行。
# DLT似乎執行這個至少4次,一個@dlt運行。表()def load_from_external (): input_df = spark.read(…) #包含500行#做一些轉換返回out_df # @dlt總是包含500行。表()def downstream_etl (): input_df = dlt.read (load_from_external) #包含500行第一次執行時,返回out_df 0 2 - 4 #做一些轉換
這是預期的行為嗎?如果是這樣,有什麼辦法可以禁用它,隻有筆記本執行一次?
提前謝謝你的幫助。