06-22-202106:13點
例如,假設有一個文件
一些文件
,這是一個gzip文本文件。如果我嚐試
spark.read.text(“文件”)
,它將返回一大堆廢話,因為它不知道gzip文件。我想手動告訴火花文件是根據gzip和解碼。我做了一些搜索但看不出一個好的答案或者答案說你不能。
06-22-202106:32點
除了重命名的文件,我不確定你可以做多——如何閱讀下麵的壓縮文件發生一點火花,在Hadoop api,並查看源似乎絕對關鍵的文件名。
如果他們不是大文件,您可以用.load加載文件的字節(“binaryFiles”),然後應用一個UDF gunzips文件與一個圖書館,然後解釋字節為一個字符串。在Scala中你可以解釋,作為一個數據集(字符串),實際上把它傳給spark.read.csv之類的東西;不知道你可以在Python中做同樣的事情。但是,至少能讓你整個文本的每個文件。
03-13-202207:24我
社會領域的批準。的鬥爭一個很好的網站推薦的規範。建議值的頂部發現成員的重要路徑。
從未顯出
加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。
點擊在這裏注冊今天,加入!
參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。