我有點新火花結構化流東西所以問所有相關的問題如果我錯過了什麼。
我有一個筆記本,消耗的事件並將這些記錄寫入adls卡夫卡的話題。主題是json序列化我隻是寫值列作為json字符串為adls沒有壓扁。(我以後會做壓扁的部分在一個單獨的筆記本提供模式)。
對每一批作家,我設置觸發器availableNow = true。maxOffsetsPerTrigger被設置為5000。而消費數據,我也添加一個current_timestamp列來確定每個事件時被消耗。我將每天運行筆記本一次我不想虛報資源。
availableNow以來真正的流程所有可用的數據自上次檢查點在微批次,我的期望是,會有大塊的近5000條記錄用adls寫的。但是我發現一個隨機數的條目從1到1000被寫在5 - 15分鍾的時間間隔,我能夠識別使用current_timestamp添加在閱讀的話題。
例如20-11-2022 10:30:00:000 - 10記錄
20-11-2022 10:35:00:000 - 1記錄
20-11-2022 10:45:00:000 ..... - 250記錄
因為這種奇怪的處理,如果在1天主題生產商生產大約2000事件,需要約45分鍾到1小時消耗和數據加載到adls。
誰能解釋這是為什麼。運行一個管道工作1小時負荷1000條記錄肯定似乎是一個過度。
注:這與集群作為集群本身是一個非常高的性能在生產環境中。