高清版的《Spark GraphX in Action》还挺良心的,页码目录全,翻起来也方便。讲的是Spark里那个做图计算的GraphX模块,说白了就是拿来各种网络关系的,比如用户关系、网页连接,挺适合搞社交、推荐、反欺诈的同学。

GraphX 的 API不复杂,图的顶点和边都能带属性,跑PageRankShortestPaths这些图算法顺手。作者也用了不少实际案例,比如社交传播、社区发现那类,还穿插着和Spark SQLMLlib的配合。

你要是已经在用Spark数据,顺手扩展到图计算这块就自然了。不用单独部署图数据库,直接上分布式环境干活,效率也高,代码也简洁。

顺便提醒下,初学者要稍微补下Spark基础,尤其是RDDDataFrame部分的知识。不过书里也有不少引导,边学边练不难上手。

如果你正在做大数据、社交网络挖掘或者推荐系统的项目,这本书还是蛮值得花点时间啃一下的。资源可以从这儿找。