生產注意事項結構化流

本文包含建議配置生產增量處理工作負載與結構化的流媒體數據磚履行延遲和成本要求實時或批處理應用程序。關鍵概念理解的結構化流在磚可以幫助你避免常見缺陷的擴大體積和速度的數據,從開發到生產。

磚了三角洲的生活表,以減少生產基礎設施的複雜性結構化流的工作負載。磚建議使用三角洲生活表新的結構化流管道;看到δ生活是什麼表?

請注意

計算伸縮擴展限製了集群大小結構化流工作負載。磚建議使用三角洲表與增強的自動定量直播工作負載。看到增強的自動定量是多少?

使用筆記本電腦進行結構化流工作負載

互動發展,磚筆記本需要你連接你的筆記本電腦集群以手動執行查詢。你可以安排磚筆記本從查詢故障自動部署和自動恢複使用工作流

你可以想象結構化流查詢筆記本在互動發展,或互動監控生產工作負載。你隻能想象一個結構化流查詢生產如果人類將定期監測筆記本的輸出。而觸發checkpointLocation參數是可選的,磚作為一個最佳實踐建議總是在生產中指定它們。

批量大小和頻率控製磚結構的流

結構化流在磚上增強選項幫助控製成本和延遲而流自動加載器和三角洲湖。

有狀態的流媒體是什麼?

一個有狀態結構化流查詢需要增量更新中間狀態信息,而一個無狀態的結構化流隻查詢跟蹤信息這行已經從源到彙處理。

有狀態操作包括流媒體聚合流dropDuplicatesstream-stream連接,mapGroupsWithState,flatMapGroupsWithState

有狀態所需的中間狀態信息結構化流查詢會導致意想不到的延遲和生產問題如果沒有正確配置。

磚運行時的13.2及以上,您可以啟用changelog檢查點RocksDB降低檢查點時間和端到端延時結構化流工作負載。磚建議啟用所有結構化流的changelog檢查點狀態查詢。看到使changelog檢查點