你好,
在開發ETL對於大型的數據集,我想樣品頂部行檢查我的管道“運行”,所以我添加一個限製條款在讀取數據。
我驚訝地看到,不是創建一個單獨的任務,顯示命令創建了一個為每個分區文件(idk如果隻是檢查元數據或預加載數據,但是我擔心的是第二種情況下的執行時間)。
我期待的極限(n)條款下推到文件係統和加載數據從文件要求的數量。
有辦法確保這種行為?幹杯!
最小的例子:
(火花.read.parquet(“<路徑>”)#分區過濾器。()#獲得最高行.limit (100)) spark.show() # <——這等於觸發工作的任務數量的分區中的文件…
你好休伯特,謝謝你的快速反應,
>就點與一個分區文件夾。
這將工作,但我想要一個通解比可以應用在不改變文件夾內的路徑或不必看建築,有時你沒有輕易訪問S3或者其他文件係統(當使用一個目錄)
>另外指定模式,以避免inferSchema行為。
這個對我沒用,至少使用鑲花文件,它仍然創造了大量的任務。
>您可以使用samplingRatio =沒有
對我沒用,似乎它仍然讀取元數據從鋪文件/行