斯坦福教授写的大数据挖掘书,内容不光硬核,讲法也接地气。讲到MapReduce
和HDFS
时,举了不少实战例子,分布式入门蛮合适的。还有像MinHash
、LSH
这种搞相似性搜索的算法,解释得也比较易懂,适合你这种边学边用的节奏。
大数据里的实时流,书里专门拿出一章来讲,像什么滑动窗口算法啊、在线算法啊都有提到。做社交数据或者风控的你,肯定会用得上。还有经典的PageRank
、链接垃圾检测这些,嗯,搜索相关的项目也挺依赖这些。
像频繁项集挖掘,除了说A-Priori
,还给了优化版本的思路,跑大数据集不会卡顿。聚类部分也不含糊,书里提到不少适合高维数据的方案,适合搞推荐系统的同学看看。
还有广告投放、推荐系统、社交网络等内容,这些都是 Web 开发常碰到的坑。像广告展示优化和用户影响力计算这类场景,书里用蛮清楚的图和流程来讲,代码也不复杂,响应也快。
如果你在做大数据项目,或者刚好想理解大厂背后的推荐系统和图挖掘,这本书挺合适,放在手边查阅也方便。