高清版的《Spark GraphX in Action》还挺良心的,页码目录全,翻起来也方便。讲的是Spark
里那个做图计算的GraphX
模块,说白了就是拿来各种网络关系的,比如用户关系、网页连接,挺适合搞社交、推荐、反欺诈的同学。
GraphX 的 API不复杂,图的顶点和边都能带属性,跑PageRank
、ShortestPaths
这些图算法顺手。作者也用了不少实际案例,比如社交传播、社区发现那类,还穿插着和Spark SQL
、MLlib
的配合。
你要是已经在用Spark
数据,顺手扩展到图计算这块就自然了。不用单独部署图数据库,直接上分布式环境干活,效率也高,代码也简洁。
顺便提醒下,初学者要稍微补下Spark
基础,尤其是RDD
和DataFrame
部分的知识。不过书里也有不少引导,边学边练不难上手。
如果你正在做大数据、社交网络挖掘或者推荐系统的项目,这本书还是蛮值得花点时间啃一下的。资源可以从这儿找。