解決:磚筆記本是花2個小時來寫…-磚- 22371

蘇倫德拉 · ‎04-22-2022

問題陳述:

要求:

解壓tar。gz文件和CSV文件寫入blob存儲/中間存儲層進行進一步處理。

我已經嚐試:

解壓並編寫安裝位置(附截圖):

我在這裏使用hadoop FileUtil庫解壓函數將和寫CSV文件解壓到目標存儲(/ dbfs / mnt / blob存儲)。

需要1.50小時完成工作2工人集群節點(4芯)。

解壓並編寫DBFS根FileStore:

我在這裏使用hadoop FileUtil庫壓縮函數將和寫CSV文件解壓到目標存儲(/ dbfs / FileStore /)隻需8分鍾完成2工人的工作節點(4芯)集群。

問題:

為什麼寫DBFS / FileStore或DBFS /磚/司機15倍,寫作DBFS / mnt存儲?

DBFS什麼存儲和文件係統根(/ FileStore / databricks-datasets /磚/司機)在後台使用嗎?為每個子文件夾大小限製是什麼?

Hubert_Dudek1 · ‎04-25-2022

它是關於路由。當您使用本地網絡在該地區,這將是超級快。甚至不是一個本地網絡但同一地區仍然非常快。然而,它將更加緩慢時,必須在另一個地區,主要是當它使用公共網絡。

類似的13 x是我所期待的。此外,本地網絡內路由不將生成出站流量費用。

Hubert_Dudek1 · ‎04-22-2022

@Surendranatha Reddy Chappidi看來,這是一個問題/ dbfs / mnt山、blob存儲配置:

Kaniz · ‎04-25-2022

嗨@Surendranatha Reddy Chappidi,請讓我們知道如果@Hubert杜德克的回答幫助,或者我們會為你找到另一個解決方案。

蘇倫德拉 · ‎04-25-2022

@Hubert杜德克謝謝你的建議。

在創建存儲賬戶在同一地區磚我可以看到性能的預期。

現在很明顯,問題是在/ mnt /位置比磚在不同的地區。

我想明白為什麼需要13 x更多時間來寫數據存儲與同一地區不同區域存儲賬戶?

什麼是API /協議磚用於後端數據寫入相同的區域,不同的區域?

為什麼我擔心是因為我們正在開發為客戶服務。beplay体育app下载地址

客戶可以選擇存儲賬戶地區和數據磚賬戶地區部署該服務在他們的訂閱。

如果不同,那麼客戶將麵臨的性能問題我早些時候報道。

@Kaniz Fatma請幫助理解需要13 x更多時間來寫數據到不同的區域存儲與同一地區存儲賬戶?

Hubert_Dudek1 · ‎04-25-2022

它是關於路由。當您使用本地網絡在該地區,這將是超級快。甚至不是一個本地網絡但同一地區仍然非常快。然而,它將更加緩慢時,必須在另一個地區,主要是當它使用公共網絡。

類似的13 x是我所期待的。此外,本地網絡內路由不將生成出站流量費用。

磚