問題陳述:
要求:
解壓tar。gz文件和CSV文件寫入blob存儲/中間存儲層進行進一步處理。
我已經嚐試:
解壓並編寫安裝位置(附截圖):
我在這裏使用hadoop FileUtil庫解壓函數將和寫CSV文件解壓到目標存儲(/ dbfs / mnt / blob存儲)。
需要1.50小時完成工作2工人集群節點(4芯)。
解壓並編寫DBFS根FileStore:
我在這裏使用hadoop FileUtil庫壓縮函數將和寫CSV文件解壓到目標存儲(/ dbfs / FileStore /)隻需8分鍾完成2工人的工作節點(4芯)集群。
問題:
為什麼寫DBFS / FileStore或DBFS /磚/司機15倍,寫作DBFS / mnt存儲?
DBFS什麼存儲和文件係統根(/ FileStore / databricks-datasets /磚/司機)在後台使用嗎?為每個子文件夾大小限製是什麼?