Zip文件
Hadoop不支持將zip文件作為壓縮編解碼器。盡管GZip、BZip2和其他支持的壓縮格式中的文本文件可以配置為在Apache Spark中自動解壓,隻要它具有正確的文件擴展名,但是必須執行額外的步驟來讀取zip文件。
下麵的筆記本展示了如何讀取zip文件。將zip文件下載到臨時目錄後,可以調用Databricks% sh郵政編碼
神奇的命令解壓文件。對於筆記本中使用的示例文件,使用尾巴
步驟從解壓縮文件中刪除注釋行。
當你使用% sh
要對文件進行操作,結果存儲在目錄中/磚/驅動程序
.在使用Spark API加載文件之前,使用磚公用事業.