取消
顯示的結果
而不是尋找
你的意思是:

我必須讀沒有解壓縮使用火花csv文件。誰能請提供pyspark /火花sql代碼嗎?

Jitu
新的貢獻者二世

接收到s3原始層壓縮csv文件。

6個回答6

匿名
不適用

為什麼你不能解壓縮嗎?你不能讀與火花zip壓縮文件不是一個文件類型。https://docs.m.eheci.com/files/unzip-files.html有一些指令如何解壓和閱讀它們。

此外,如果你不想或不能解壓縮檔案,您可以列出歸檔文件的內容,隻選中文件解壓縮。

正如@Joseph Kambourakis問,為什麼你就不能解壓縮嗎?是什麼阻止你嗎?

belbert
新的貢獻者二世

我們遇到了一個類似的問題,但對gzip文件。如果你能將你的文件轉換成gzip壓縮,而是它一樣容易以下(PySpark)

df = spark.read。選項(“頭”,“真正的”)。csv(路徑+“/ * .csv.gz”)

盡我所知,這是不可能的ZIP文件,但是如果你有一個地方,你可以寫輸出,Scala編寫Python或腳本解壓然後gzip文件不應該太難(如果需要讓他們壓縮,否則做@Joseph Kambourakis說,解壓縮:slightly_smiling_face:]

你指出@Ben埃爾伯特,火花允許讀取壓縮文件(這裏提到“壓縮”屬性:https://spark.apache.org/docs/latest/sql-data-sources-csv.html)。然而,它不會使用. zip檔案。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map