再保險:我必須讀壓縮csv文件使用智慧火花…-磚- 17156

Jitu · ‎12-12-2022

接收到s3原始層壓縮csv文件。

匿名 · ‎12-13-2022

為什麼你不能解壓縮嗎?你不能讀與火花zip壓縮文件不是一個文件類型。https://docs.m.eheci.com/files/unzip-files.html有一些指令如何解壓和閱讀它們。

Bartek · ‎12-13-2022

此外,如果你不想或不能解壓縮檔案,您可以列出歸檔文件的內容,隻選中文件解壓縮。

正如@Joseph Kambourakis問,為什麼你就不能解壓縮嗎?是什麼阻止你嗎?

belbert · ‎12-14-2022

我們遇到了一個類似的問題,但對gzip文件。如果你能將你的文件轉換成gzip壓縮,而是它一樣容易以下(PySpark)

df = spark.read。選項(“頭”,“真正的”)。csv(路徑+“/ * .csv.gz”)

盡我所知,這是不可能的ZIP文件,但是如果你有一個地方,你可以寫輸出,Scala編寫Python或腳本解壓然後gzip文件不應該太難(如果需要讓他們壓縮,否則做@Joseph Kambourakis說,解壓縮]

Bartek · ‎12-14-2022

你指出@Ben埃爾伯特,火花允許讀取壓縮文件(這裏提到“壓縮”屬性:https://spark.apache.org/docs/latest/sql-data-sources-csv.html)。然而,它不會使用. zip檔案。

磚