你好,
在開發ETL對於大型的數據集,我想樣品頂部行檢查我的管道“運行”,所以我添加一個限製條款在讀取數據。
我驚訝地看到,不是創建一個單獨的任務,顯示命令創建了一個為每個分區文件(idk如果隻是檢查元數據或預加載數據,但是我擔心的是第二種情況下的執行時間)。
我期待的極限(n)條款下推到文件係統和加載數據從文件要求的數量。
有辦法確保這種行為?幹杯!
最小的例子:
(火花.read.parquet(“<路徑>”)#分區過濾器。()#獲得最高行.limit (100)) spark.show() # <——這等於觸發工作的任務數量的分區中的文件…
你也可以嚐試閱讀拚花與限製和流觸發一次選擇。
然後設置不同的檢查點和限製取決於環境。
用觸發器的流加載批作業,可以使用相同的代碼。此外cloudfiles磚很好的檢測的新文件。