如何閱讀一個壓縮文件在火花如果文件…-磚- 21604

匿名 · ‎06-22-2021

例如,假設有一個文件

一些文件

,這是一個gzip文本文件。如果我嚐試

spark.read.text(“文件”)

,它將返回一大堆廢話,因為它不知道gzip文件。我想手動告訴火花文件是根據gzip和解碼。我做了一些搜索但看不出一個好的答案或者答案說你不能。

sean_owen · ‎06-22-2021

除了重命名的文件,我不確定你可以做多——如何閱讀下麵的壓縮文件發生一點火花,在Hadoop api,並查看源似乎絕對關鍵的文件名。

如果他們不是大文件,您可以用.load加載文件的字節(“binaryFiles”),然後應用一個UDF gunzips文件與一個圖書館,然後解釋字節為一個字符串。在Scala中你可以解釋,作為一個數據集(字符串),實際上把它傳給spark.read.csv之類的東西;不知道你可以在Python中做同樣的事情。但是,至少能讓你整個文本的每個文件。

佛朗斯 · ‎03-13-2022

社會領域的批準。的鬥爭一個很好的網站推薦的規範。建議值的頂部發現成員的重要路徑。

磚

如何閱讀一個壓縮文件在火花如果文件擴展名的文件名不包括壓縮格式嗎?