親愛的支持,
我們有以下情況的DLT管道流與傳入的數據率很低,我們需要找到這個延遲的根源。
為了提供更多的信息關於DLT管道的設置和一些指標對源表:
——源表63.000.077.072記錄
——源表有2個分區直接映射到列值
——源表有4個分區計算值列值
——流查詢過濾器過濾的源表在一個分區和一個un-partitioned列在同一時間
對目標指標的分區
分區,記錄
p1, 2082775
p2, 932645
p3, 2808
p4 5
p5 2
p6, 30990942
第七頁,80
p8, 143623
票數,1735803700
p10, 4819113815
賽,4749727822
p12, 12491237547
p13, 17198069143
好,18333204664
p15, 3638767501
——感興趣的分區p15並持有3.638.767.501記錄
——記錄感興趣的應用過濾後需要流分區列和un-partitioned 76.929.237列
——使用以下選項而流:
選項(“maxBytesPerTrigger”, 1024 * 1024 * < MB_PER_TRIGGER_PROPERTY >)
選項(“ignoreChanges”,“真正的”)
選項(“startingTimestamp”, < CUT_OFF_PROPERTY >)
MB_PER_TRIGGER_PROPERTY = 10
CUT_OFF_PROPERTY =一個給定的日期
——DLT管道有以下規格的處理能力:
:“node_type_id Standard_E8ds_v4”,
:“driver_node_type_id Standard_E8ds_v4”,
"自動定量":{
“min_workers”: 1、
“max_workers”: 1、
“模式”:“遺留”
}
“光子”:假的
觀察到的問題如下:
數據存儲在目標的速度表非常低。例如:200萬條記錄已經達到50 +小時的流的目標表。
注意:有4個DLT管道流同時從同一個源表和表附加到不同的目的地。
最好的問候,
EDDatabricks
@EDDatabricks EDDatabricks:
根據所提供的信息,可能有幾個因素導致了流速度慢:
改善流媒體性能,下麵是一些建議: