电信社交网络的数据量是真的大,用常规的图计算工具,效率低得让人抓狂。Graphchi 的单机能力还挺能打的,尤其是对于那种边多点多的社交关系图,用它做点数据挖掘什么的,体验还不错。
单机的 Graphchi 图计算框架,适合那种不太想折腾分布式环境,又想研究大规模图的场景。你直接拿电信的通话记录数据跑个社交关系,用 PageRank、连通分量啥的,一整套都能搞出来,响应也快,代码也简单。
有意思的是,Graphchi 的 I/O 机制做得蛮的,它用的异步加载方式,一边一边读写磁盘,效率比你想的高。像电信这种动不动就几百万通话记录的数据,用它单机也不卡,稳定性也挺靠谱。
了,如果你手头是分布式环境,那你也可以考虑用下 Spark 或者一些更现代的图计算框架,但 Graphchi 用起来门槛低,适合快速试验。
想了解更多相关技术?你可以顺手看看这两篇文章,嗯,都还挺有干货的:
如果你正打算研究大规模的社交网络数据,尤其是电信领域的那种,可以先拿 Graphchi 练练手,轻量又实用,踩坑的机会也少不少。