取消
顯示的結果
而不是尋找
你的意思是:

磚筆記本花兩個小時寫的到/ mnt / dbfs (blob存儲)。同樣的工作正在寫/ dbfs / FileStore 8分鍾。我想明白為什麼寫性能在這兩種情況下是不同的。

蘇倫德拉
新的貢獻者三世

問題陳述:

  • 源文件格式:gz
  • Avg尺寸:10 mb
  • 焦油。gz文件:1000
  • 每一個焦油。gz文件contails約20000 csv文件。

要求:

解壓tar。gz文件和CSV文件寫入blob存儲/中間存儲層進行進一步處理。

我已經嚐試:

解壓並編寫安裝位置(附截圖):

我在這裏使用hadoop FileUtil庫解壓函數將和寫CSV文件解壓到目標存儲(/ dbfs / mnt / blob存儲)。

需要1.50小時完成工作2工人集群節點(4芯)。

databricks_write_to_dbfsMount解壓並編寫DBFS根FileStore:

我在這裏使用hadoop FileUtil庫壓縮函數將和寫CSV文件解壓到目標存儲(/ dbfs / FileStore /)隻需8分鍾完成2工人的工作節點(4芯)集群。

databricks_write_to_dbfsMount

問題:

為什麼寫DBFS / FileStore或DBFS /磚/司機15倍,寫作DBFS / mnt存儲?

DBFS什麼存儲和文件係統根(/ FileStore / databricks-datasets /磚/司機)在後台使用嗎?為每個子文件夾大小限製是什麼?

1接受解決方案

接受的解決方案

Hubert_Dudek1
尊敬的貢獻者三世

它是關於路由。當您使用本地網絡在該地區,這將是超級快。甚至不是一個本地網絡但同一地區仍然非常快。然而,它將更加緩慢時,必須在另一個地區,主要是當它使用公共網絡。

類似的13 x是我所期待的。此外,本地網絡內路由不將生成出站流量費用。

在原帖子查看解決方案

5回複5

Hubert_Dudek1
尊敬的貢獻者三世

@Surendranatha Reddy Chappidi看來,這是一個問題/ dbfs / mnt山、blob存儲配置:

  • blob存儲需要在同一可用性區域作為你的磚,
  • 請使用私人鏈接所以交通是在本地路由,而不是通過互聯網(網絡,有一個私人磚所使用的子網,也應該是一個遠程端點)
  • 請升級ADLS2 blob存儲

在這裏我解釋如何添加ADLS2和私人鏈接:https://community.m.eheci.com/s/feed/0D53f00001eQGOHCA4

Kaniz
社區經理
社區經理

嗨@Surendranatha Reddy Chappidi,請讓我們知道如果@Hubert杜德克的回答幫助,或者我們會為你找到另一個解決方案。

蘇倫德拉
新的貢獻者三世

@Hubert杜德克謝謝你的建議。

在創建存儲賬戶在同一地區磚我可以看到性能的預期。

現在很明顯,問題是在/ mnt /位置比磚在不同的地區。

我想明白為什麼需要13 x更多時間來寫數據存儲與同一地區不同區域存儲賬戶?

什麼是API /協議磚用於後端數據寫入相同的區域,不同的區域?

為什麼我擔心是因為我們正在開發為客戶服務。beplay体育app下载地址

客戶可以選擇存儲賬戶地區和數據磚賬戶地區部署該服務在他們的訂閱。

如果不同,那麼客戶將麵臨的性能問題我早些時候報道。

@Kaniz Fatma請幫助理解需要13 x更多時間來寫數據到不同的區域存儲與同一地區存儲賬戶?

Hubert_Dudek1
尊敬的貢獻者三世

它是關於路由。當您使用本地網絡在該地區,這將是超級快。甚至不是一個本地網絡但同一地區仍然非常快。然而,它將更加緩慢時,必須在另一個地區,主要是當它使用公共網絡。

類似的13 x是我所期待的。此外,本地網絡內路由不將生成出站流量費用。

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map