Zip文件

Hadoop不支持將zip文件作為壓縮編解碼器。盡管GZip、BZip2和其他支持的壓縮格式中的文本文件可以配置為在Apache Spark中自動解壓,隻要它具有正確的文件擴展名,但是必須執行額外的步驟來讀取zip文件。

下麵的筆記本展示了如何讀取zip文件。將zip文件下載到臨時目錄後,可以調用Databricks% sh郵政編碼神奇的命令解壓文件。對於筆記本中使用的示例文件,使用尾巴步驟從解壓縮文件中刪除注釋行。

當你使用% sh要對文件進行操作,結果存儲在目錄中/磚/驅動程序.在使用Spark API加載文件之前,使用磚公用事業

Zip文件Python筆記本

壓縮文件Scala筆記本