擴大和讀取Zip壓縮文件
您可以使用解壓縮
Bash命令擴展文件或目錄文件的Zip壓縮。如果您下載或遇到一個文件或目錄的結局. zip
在繼續之前,擴大數據。
請注意
Apache火花提供了本地與壓縮鋪交互文件編解碼器。默認情況下,鋪磚結尾寫的文件.snappy.parquet
,表明他們使用時髦的壓縮。
如何解壓縮數據
的磚% sh
神奇的命令可以執行任意的Bash代碼,包括解壓縮
命令。
下麵的例子使用了一個壓縮從互聯網下載的CSV文件。您還可以使用磚實用程序將文件移動到司機體積擴大之前。看到從互聯網上下載數據和磚公用事業。
下麵的代碼使用旋度
下載,然後解壓縮
擴大數據:
% sh / tmp / LoanStats3a.csv curl https://resources.lendingclub.com/LoanStats3a.csv.zip——輸出。zip解壓/ tmp / LoanStats3a.csv.zip
使用dbutils擴展文件移回雲對象存儲允許平行閱讀,如以下幾點:
dbutils。fs。mv(“文件:/ LoanStats3a.csv”,“dbfs: / tmp / LoanStats3a.csv”)
在這個例子中,下載的數據有一個評論在第一行和第二頭。現在數據已經擴展和移動,使用標準的選擇閱讀CSV文件,如以下示例:
df=火花。讀。格式(“csv”)。選項(“skipRows”,1)。選項(“頭”,真正的)。負載(“/ tmp / LoanStats3a.csv”)顯示(df)