取消
顯示的結果
而不是尋找
你的意思是:

如何閱讀一個壓縮文件在火花如果文件擴展名的文件名不包括壓縮格式嗎?

匿名
不適用

例如,假設有一個文件

一些文件

,這是一個gzip文本文件。如果我嚐試

spark.read.text(“文件”)

,它將返回一大堆廢話,因為它不知道gzip文件。我想手動告訴火花文件是根據gzip和解碼。我做了一些搜索但看不出一個好的答案或者答案說你不能。

2回答2

sean_owen
尊敬的貢獻者二世
尊敬的貢獻者二世

除了重命名的文件,我不確定你可以做多——如何閱讀下麵的壓縮文件發生一點火花,在Hadoop api,並查看源似乎絕對關鍵的文件名。

如果他們不是大文件,您可以用.load加載文件的字節(“binaryFiles”),然後應用一個UDF gunzips文件與一個圖書館,然後解釋字節為一個字符串。在Scala中你可以解釋,作為一個數據集(字符串),實際上把它傳給spark.read.csv之類的東西;不知道你可以在Python中做同樣的事情。但是,至少能讓你整個文本的每個文件。

佛朗斯
新的貢獻者二世

社會領域的批準。的鬥爭一個很好的網站推薦的規範。建議值的頂部發現成員的重要路徑。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map