Spark Streaming 项目实战的数据集还挺实用的,适合想上手流式的你。项目里不仅包含主程序,还有各种模拟工具,像是MockRealTime.scala
和RandomNumUtil.scala
,拿来直接跑起来做测试方便。
Spark Streaming的微批思路,还蛮适合初学者理解实时数据。它不是一条一条,而是把数据切成一小批一小批来干,代码写起来也没那么绕。
项目里的RealTimeApp.scala
就像总指挥,配置输入输出,逻辑一把抓。你要是还不太熟 DStream 怎么搞的,看看里面的注释和代码结构,立马就清楚了。
还有几个辅助工具类也蛮贴心的。比如RedisUtil.scala
,直接给你封装好了 Redis 的连接操作,拿来直接存结果就行;RandomOptions.scala
可以配置模拟数据的各种参数,调起来也方便。
数据源这块模拟得也不错,AdsInfo.scala
和CityInfo.scala
把广告信息和城市信息都建模好了,跑起来有点真流量那味了。
顺手说一句,压缩包里还带了Scala 转 JSON.txt
这种小技巧文档,蛮实用的,JSON 转来转去在实时场景里确实常见,早点搞明白能省不少事。
,如果你正打算练手Spark Streaming
项目,尤其是想自己动手模拟一套完整流程,这份数据集和源码真的蛮推荐的。哦对了,要跑起来记得先看下依赖关系.txt
,少库了可就尴尬了。
如果你还想拓展下思路,Spark Streaming 实时数据详解和Spark Streaming+Flume+Kafka+HBase 项目也可以瞅一眼,都是挺实用的资料。