Web 数据挖掘的百科全书级资源,内容真的是够全,够硬。Apriori 算法、PrefixSpan、监督学习、Web 爬虫,你想找的挖掘思路基本全能翻到。嗯,目录细,像我这种看文喜欢跳着看的人简直太友好了。
第 1 到 5 章是基础,讲了数据挖掘的各种算法,还配了实际应用的示例。Apriori
怎么搞、支持向量机怎么调、聚类到底有哪些坑,讲得都挺透。你要是还不太熟这些概念,可以先从这部分啃起,慢慢来不着急。
第 6 章开始就进主菜了,Web 相关的部分真心精彩。像信息检索、搜索引擎的倒排索引、网页预,全都有。写得还挺贴地气,哪怕是非搜索专业的前端看也能懂。停用词移除
、词干提取
这些步骤讲得也挺细。
再往后看,第 8 章的Web 爬虫部分我推荐一定要看,宽度优先
、主题爬虫
、反作弊
这些点都能用得上。尤其是做内容聚合的你,不看这个都不好意思说在搞爬虫。
另外第 11 章的观点挖掘也挺有意思,不只是分类,还包括观点倾向
、比较句
识别这些,适合做产品评论、社交舆情的同学。还有一点小建议:有点学术感的表达看不懂就跳过,看懂的那部分就先用起来。
如果你刚好在做 Web 数据相关的项目,比如用户行为、信息抽取、情感分类什么的,这份资源真的可以收藏慢慢啃,挺值当的。