Web Data Mining数据挖掘技术与应用

Web 数据挖掘的百科全书级资源，内容真的是够全，够硬。Apriori 算法、PrefixSpan、监督学习、Web 爬虫，你想找的挖掘思路基本全能翻到。嗯，目录细，像我这种看文喜欢跳着看的人简直太友好了。

第 1 到 5 章是基础，讲了数据挖掘的各种算法，还配了实际应用的示例。Apriori怎么搞、支持向量机怎么调、聚类到底有哪些坑，讲得都挺透。你要是还不太熟这些概念，可以先从这部分啃起，慢慢来不着急。

第 6 章开始就进主菜了，Web 相关的部分真心精彩。像信息检索、搜索引擎的倒排索引、网页预，全都有。写得还挺贴地气，哪怕是非搜索专业的前端看也能懂。停用词移除、词干提取这些步骤讲得也挺细。

再往后看，第 8 章的Web 爬虫部分我推荐一定要看，宽度优先、主题爬虫、反作弊这些点都能用得上。尤其是做内容聚合的你，不看这个都不好意思说在搞爬虫。

另外第 11 章的观点挖掘也挺有意思，不只是分类，还包括观点倾向、比较句识别这些，适合做产品评论、社交舆情的同学。还有一点小建议：有点学术感的表达看不懂就跳过，看懂的那部分就先用起来。

如果你刚好在做 Web 数据相关的项目，比如用户行为、信息抽取、情感分类什么的，这份资源真的可以收藏慢慢啃，挺值当的。