擴大和讀取Zip壓縮文件

您可以使用解壓縮Bash命令擴展文件或目錄文件的Zip壓縮。如果您下載或遇到一個文件或目錄的結局. zip在繼續之前,擴大數據。

請注意

Apache火花提供了本地與壓縮鋪交互文件編解碼器。默認情況下,鋪磚結尾寫的文件.snappy.parquet,表明他們使用時髦的壓縮。

如何解壓縮數據

的磚% sh神奇的命令可以執行任意的Bash代碼,包括解壓縮命令。

下麵的例子使用了一個壓縮從互聯網下載的CSV文件。您還可以使用磚實用程序將文件移動到司機體積擴大之前。看到從互聯網上下載數據磚公用事業

下麵的代碼使用旋度下載,然後解壓縮擴大數據:

% sh / tmp / LoanStats3a.csv curl https://resources.lendingclub.com/LoanStats3a.csv.zip——輸出。zip解壓/ tmp / LoanStats3a.csv.zip

使用dbutils擴展文件移回雲對象存儲允許平行閱讀,如以下幾點:

dbutilsfsmv(“文件:/ LoanStats3a.csv”,“dbfs: / tmp / LoanStats3a.csv”)

在這個例子中,下載的數據有一個評論在第一行和第二頭。現在數據已經擴展和移動,使用標準的選擇閱讀CSV文件,如以下示例:

df=火花格式(“csv”)選項(“skipRows”,1)選項(“頭”,真正的)負載(“/ tmp / LoanStats3a.csv”)顯示(df)