DLT管道緩慢流(根源需要b…-磚- 7648

EDDatabricks · ‎03-16-2023

親愛的支持,

我們有以下情況的DLT管道流與傳入的數據率很低,我們需要找到這個延遲的根源。

為了提供更多的信息關於DLT管道的設置和一些指標對源表:

——源表63.000.077.072記錄

——源表有2個分區直接映射到列值

——源表有4個分區計算值列值

——流查詢過濾器過濾的源表在一個分區和一個un-partitioned列在同一時間

對目標指標的分區

分區,記錄

p1, 2082775

p2, 932645

p3, 2808

p4 5

p5 2

p6, 30990942

第七頁,80

p8, 143623

票數,1735803700

p10, 4819113815

賽,4749727822

p12, 12491237547

p13, 17198069143

好,18333204664

p15, 3638767501

——感興趣的分區p15並持有3.638.767.501記錄

——記錄感興趣的應用過濾後需要流分區列和un-partitioned 76.929.237列

——使用以下選項而流:

選項(“maxBytesPerTrigger”, 1024 * 1024 * < MB_PER_TRIGGER_PROPERTY >)

選項(“ignoreChanges”,“真正的”)

選項(“startingTimestamp”, < CUT_OFF_PROPERTY >)

MB_PER_TRIGGER_PROPERTY = 10

CUT_OFF_PROPERTY =一個給定的日期

——DLT管道有以下規格的處理能力:

:“node_type_id Standard_E8ds_v4”,

:“driver_node_type_id Standard_E8ds_v4”,

"自動定量":{

“min_workers”: 1、

“max_workers”: 1、

“模式”:“遺留”

}

“光子”:假的

觀察到的問題如下:

數據存儲在目標的速度表非常低。例如:200萬條記錄已經達到50 +小時的流的目標表。

注意:有4個DLT管道流同時從同一個源表和表附加到不同的目的地。

最好的問候,

EDDatabricks

匿名 · ‎03-24-2023

@EDDatabricks EDDatabricks:

根據所提供的信息,可能有幾個因素導致了流速度慢:

源表數據量:有超過630億的記錄,和感興趣的分區(p15)持有超過36億條記錄。可能正在放緩處理大量的數據流。
處理能力:使用的節點類型DLT管道Standard_E8ds_v4, 8個vcpu, 64鑲條內存和磁盤2400 MB / s的吞吐量。可能的處理能力不足以處理數據流的體積。
網絡帶寬:流媒體數據需要通過網絡傳輸到目標表。如果網絡帶寬是有限的,它可以減緩流速度。
過濾:數據流查詢過濾一個分區和一個un-partitioned列在同一時間。根據過濾邏輯的複雜性,它可以減緩流速度。

改善流媒體性能,下麵是一些建議:

增加處理能力的DLT管道通過使用一個更強大的節點類型,如Standard_E16ds_v4或Standard_E32ds_v4。
增加maxBytesPerTrigger選項允許更多的數據被處理在每一個觸發器。然而,增加這個選項太多可能導致內存問題,所以重要的是要監控內存使用。
優化數據過濾邏輯,使其更有效率。例如,考慮不同的數據分區或使用不同的列過濾。
檢查網絡帶寬和考慮增加它如果是限製流速度。
考慮使用增量表,它可以改善流媒體和查詢大型數據集的性能。

Vidula_Khanna · ‎03-25-2023

嗨@EDDatabricks EDDatabricks

謝謝你發布你的問題在我們的社區!我們很高興幫助你。

幫助我們為您提供最準確的信息,請您花一些時間來回顧反應和選擇一個最好的回答了你的問題嗎?

這也將有助於其他社區成員可能也有類似的問題在未來。謝謝你的參與,讓我們知道如果你需要任何進一步的援助!

磚

DLT管道緩慢流(根本原因需要確認)