我很抱歉,我隻是覺得這個問題沒有解決
解決方案
原因
第一天,處理大文件和最終處理小文件。
詳細的原因
在性能下降:
1000 = (endOffset指數——startOffset指數)= (80999 - 79999年)
1305389 =numInputRows
avg記錄/文件是1305389/1000 = 1305.389
後性能下降:1000 = (endOffset指數——startOffset指數)= (90999 - 89999)
45644 = numInputRows
avg記錄/文件是45644/1000 = 45
從(1)和(2)的比較,可以看出,文件讀取每一批的數量之前和之後的性能下降(23:30)仍維持在1000,但在23:30 1000文件的數量變化。少,最有可能的是文件大小變得更小,從而導致一個更小的文件,所以閱讀項目的總數減少了。第一天,它處理大文件和最終處理小文件。
建議:
https://docs.microsoft.com/en-gb/azure/databricks/delta/delta-streaming limit-input-rate
https://docs.microsoft.com/en-us/azure/databricks/delta/optimizations/auto-optimize
最後,感謝大磚團隊和微軟團隊的技術支持。