Web 数据挖掘的百科全书级资源,内容真的是够全,够硬。Apriori 算法PrefixSpan监督学习Web 爬虫,你想找的挖掘思路基本全能翻到。嗯,目录细,像我这种看文喜欢跳着看的人简直太友好了。

第 1 到 5 章是基础,讲了数据挖掘的各种算法,还配了实际应用的示例。Apriori怎么搞、支持向量机怎么调、聚类到底有哪些坑,讲得都挺透。你要是还不太熟这些概念,可以先从这部分啃起,慢慢来不着急。

第 6 章开始就进主菜了,Web 相关的部分真心精彩。像信息检索搜索引擎的倒排索引网页预,全都有。写得还挺贴地气,哪怕是非搜索专业的前端看也能懂。停用词移除词干提取这些步骤讲得也挺细。

再往后看,第 8 章的Web 爬虫部分我推荐一定要看,宽度优先主题爬虫反作弊这些点都能用得上。尤其是做内容聚合的你,不看这个都不好意思说在搞爬虫。

另外第 11 章的观点挖掘也挺有意思,不只是分类,还包括观点倾向比较句识别这些,适合做产品评论、社交舆情的同学。还有一点小建议:有点学术感的表达看不懂就跳过,看懂的那部分就先用起来。

如果你刚好在做 Web 数据相关的项目,比如用户行为、信息抽取、情感分类什么的,这份资源真的可以收藏慢慢啃,挺值当的。