Structured Streaming 的编程模型挺友好,适合之前用过 Spark Streaming 的朋友。以前那套 RDD 微批的方式其实有点绕,Structured Streaming 把它搞成了类似 SQL 的风格,写起来清爽不少。

Streaming 数据的一大难点就是“实时”两个字。Structured Streaming 的设计思路就挺聪明的,把数据看成一张永远追加的表,你写 SQL 或者 DataFrame 操作就行,系统自动搞定底层的增量,响应也快。

你写个readStream,接 Kafka、Socket 都行,再配个writeStream输出到文件、数据库,甚至控制台都 OK。代码上手快,调试也不费劲。就算你之前没碰过流,也能快搞明白。

哦对了,如果你还在用DStream那套,强烈建议早点切换。Structured Streaming 现在已经是 Spark 推荐主力方案了,稳定性和扩展性都比较靠谱。

如果你想进一步了解,可以看看下面这些文章:

如果你最近在做实时相关的项目,Structured Streaming 确实蛮值得研究一下,是对接 Kafka 这种场景,效果还不错。