入門
用戶指南
管理指南
參考指南
資源
更新了2022年6月16日
向我們發送反饋
結構化流是Apache Spark API,它使您可以以相同的方式在流數據上表達計算,就像在靜態數據上表達批處理計算一樣。結構化流動引擎會逐步執行計算,並連續更新流數據到達時的結果。有關結構化流的概述,請參閱Apache Spark結構化流程編程指南。這些文章提供了介紹性筆記本,有關如何使用特定類型的流源和水槽的詳細信息,如何將流媒體放入生產中,以及注冊的筆記本,展示了示例用例:
FlatmapGroupswithstate
foreachbatch()
有關結構化流的參考信息,Databricks建議以下Apache Spark API參考:
Python
Scala
爪哇
有關如何使用Apache Spark執行複雜流分析的詳細信息,請參見此多部分博客係列中的帖子:
帶有結構化流的實時流式ETL
使用結構化流的複雜數據格式
使用結構化流中的Apache Kafka處理數據
Apache Spark的結構化流中的活動時間聚集和水印
將Apache Spark的結構化流到生產
每天運行一次流媒體作業以節省10倍的成本:可擴展數據的第6部分
Apache Spark的結構化流中的任意狀態處理