取消
顯示的結果
而不是尋找
你的意思是:

磚寫Azure數據瀏覽器寫突然變得緩慢

RengarLee
貢獻者

現在,我寫信給Azure explorer使用火花流數據。有一天,突然變得慢寫道。重啟沒有效果。

我有一個問題引發Azure數據流的探險家。

Q1:我應該做些什麼來得到性能回複?

圖1顯示了在當前表的性能。

圖2現在表中寫的性能。

圖3在當前表的性能,但檢查點位置是新的。

有沒有可能檢查點位置引起的嗎?

1接受解決方案

接受的解決方案

RengarLee
貢獻者

我很抱歉,我隻是覺得這個問題沒有解決

解決方案

  1. 設置maxFilesPerTrigger和maxBytesPerTrigger
  2. 使autpoptimize

原因

第一天,處理大文件和最終處理小文件。

詳細的原因

在性能下降:

在性能下降1000 = (endOffset指數——startOffset指數)= (80999 - 79999年)

1305389 =numInputRows

avg記錄/文件是1305389/1000 = 1305.389

後性能下降:後1000 = (endOffset指數——startOffset指數)= (90999 - 89999)

45644 = numInputRows

avg記錄/文件是45644/1000 = 45

從(1)和(2)的比較,可以看出,文件讀取每一批的數量之前和之後的性能下降(23:30)仍維持在1000,但在23:30 1000文件的數量變化。少,最有可能的是文件大小變得更小,從而導致一個更小的文件,所以閱讀項目的總數減少了。第一天,它處理大文件和最終處理小文件。

建議:

https://docs.microsoft.com/en-gb/azure/databricks/delta/delta-streaming limit-input-rate

https://docs.microsoft.com/en-us/azure/databricks/delta/optimizations/auto-optimize

最後,感謝大磚團隊和微軟團隊的技術支持。

在原帖子查看解決方案

11日回複11

werners1
尊敬的貢獻者三世

如果檢查點位置是在另一個地區或有另一個“水平”(想想溢價vs標準存儲)有可能是這種情況。

你能檢查嗎?

謝謝你的回答。

我檢查它。

數據源(AdxDF)和檢查點位置是相同的容器,隻有路徑是不同的。

Azure數據瀏覽和數據來源是相同的地區。

我有一個新發現。

如果我寫新表。速度很快,經過幾個小時的運行,它突然減慢。

我以後再添加一個屏幕截圖

李@Rengar感謝您的更新。

User16764241763
尊敬的貢獻者

它是Blob存儲或ADLS存儲賬戶數據和檢查點文件存儲在哪裏?

歡迎來到磚社區:讓學習、網絡和一起慶祝

加入我們的快速增長的數據專業人員和專家的80 k +社區成員,準備發現,幫助和合作而做出有意義的聯係。

點擊在這裏注冊今天,加入!

參與令人興奮的技術討論,加入一個組與你的同事和滿足我們的成員。

Baidu
map