Web 挖掘的利器,刘冰的《Web 数据挖掘》讲得真挺系统的。前面几章先把数据挖掘的基础打牢,关联规则、序列模式这些东西说得清清楚楚,还讲了挺实用的算法,比如AprioriPrefixSpan,配合电商、日志这些案例,理解起来顺。

后面几章直接切入 Web 相关内容,像Web 爬虫链接结构化数据抽取这些实战环节都讲得比较细,思路也比较清晰。不止技术细节,背后的原理也讲得蛮透,适合你想系统了解 Web 数据挖掘的时候翻一翻。

观点挖掘Web 使用挖掘也挺有意思,尤其适合做用户行为、推荐系统的朋友。书里还结合了部分监督学习,贴合实际,能让你少踩不少坑。

如果你最近刚好在做爬虫、搜索、内容这些活儿,想系统捋一下思路,不妨看看这本。比起零散地查博客,这本书有整体框架,逻辑清晰多了。