基于 Spark 技术的网络大数据平台,算是我用过比较顺手的一套系统,适合电信行业那种又杂又多的信令数据。

平台的实时性扩展性都挺不错,响应快,数据量上来以后直接加节点就能顶住,不用重新折腾架构,省心。

平台底层是Spark,你知道它和传统的 Hadoop 比,胜在内存计算快,尤其是迭代算法,比如推荐系统、聚类那类,跑得挺溜。核心用的是RDDDataset,想灵活点还可以用DataFrame那套 API。

信令数据这块,主要是网络里的控制消息,类似拨打电话、发短信时系统之间的沟通。用 Spark 来,效率真心高,问题定位、网络调优都靠它来加速,效果蛮的。

顺带提一句,它还能和HBase打配合,数据实时入库、同步走,延迟也低;再结合YARN调度资源,跑集群任务也比较稳。如果你平常写ScalaJava或者Python都能无缝接入,用哪个顺手选哪个。

平台还支持RESTful API,你前端开发可以直接接,想搞个可视化面板也方便。比如用JerseyServlet来写接口,配个position: absolute样式,响应也快,代码也简单。

如果你在做和网络数据相关的项目,尤其信令数据这一块,建议你试试看这套基于 Spark 的平台,性能和兼容性都还不错。对了,想了解更多细节的,你可以看看下面这几个资源,蛮实用的。