問題陳述:
要求:
解壓tar。gz文件和CSV文件寫入blob存儲/中間存儲層進行進一步處理。
我已經嚐試:
解壓並編寫安裝位置(附截圖):
我在這裏使用hadoop FileUtil庫解壓函數將和寫CSV文件解壓到目標存儲(/ dbfs / mnt / blob存儲)。
需要1.50小時完成工作2工人集群節點(4芯)。
解壓並編寫DBFS根FileStore:
我在這裏使用hadoop FileUtil庫壓縮函數將和寫CSV文件解壓到目標存儲(/ dbfs / FileStore /)隻需8分鍾完成2工人的工作節點(4芯)集群。
問題:
為什麼寫DBFS / FileStore或DBFS /磚/司機15倍,寫作DBFS / mnt存儲?
DBFS什麼存儲和文件係統根(/ FileStore / databricks-datasets /磚/司機)在後台使用嗎?為每個子文件夾大小限製是什麼?
@Surendranatha Reddy Chappidi看來,這是一個問題/ dbfs / mnt山、blob存儲配置:
在這裏我解釋如何添加ADLS2和私人鏈接:https://community.m.eheci.com/s/feed/0D53f00001eQGOHCA4。
@Hubert杜德克謝謝你的建議。
在創建存儲賬戶在同一地區磚我可以看到性能的預期。
現在很明顯,問題是在/ mnt /位置比磚在不同的地區。
我想明白為什麼需要13 x更多時間來寫數據存儲與同一地區不同區域存儲賬戶?
什麼是API /協議磚用於後端數據寫入相同的區域,不同的區域?
為什麼我擔心是因為我們正在開發為客戶服務。beplay体育app下载地址
客戶可以選擇存儲賬戶地區和數據磚賬戶地區部署該服務在他們的訂閱。
如果不同,那麼客戶將麵臨的性能問題我早些時候報道。
@Kaniz Fatma請幫助理解需要13 x更多時間來寫數據到不同的區域存儲與同一地區存儲賬戶?