我們遇到了一個類似的問題,但對gzip文件。如果你能將你的文件轉換成gzip壓縮,而是它一樣容易以下(PySpark)
df = spark.read。選項(“頭”,“真正的”)。csv(路徑+“/ * .csv.gz”)
盡我所知,這是不可能的ZIP文件,但是如果你有一個地方,你可以寫輸出,Scala編寫Python或腳本解壓然後gzip文件不應該太難(如果需要讓他們壓縮,否則做@Joseph Kambourakis說,解壓縮]
你指出@Ben埃爾伯特,火花允許讀取壓縮文件(這裏提到“壓縮”屬性:https://spark.apache.org/docs/latest/sql-data-sources-csv.html)。然而,它不會使用. zip檔案。