韩家伟的数据挖掘书,属于那种看完你会忍不住翻第二遍的类型。不光讲了传统的频繁项集挖掘,像是 Apriori 和 FP-Growth,也把近几年比较火的并行算法、流数据都带上了,覆盖面挺全的,适合前端、后端、算法方向都顺便过一眼。
频繁项集的挖掘,基本上是数据挖掘的老大难了。书里把Apriori
讲得还挺清楚,配合这篇文章看,细节会更容易理解。像support
、confidence
这些概念,在推荐系统或购物篮里用得挺多,实际场景也蛮常见。
FP-Growth比 Apriori 效率高不少,适合大数据量的时候上,核心就是用压缩的前缀树搞定重复扫描问题。参考这个链接FP-Growth 频繁项集挖掘算法,讲得还不错。
还有一种蛮有意思的方式是走垂直数据格式
,也就是每一项看哪些事务包含它,反过来操作。这块内容可以搭配这篇文章:垂直数据格式挖掘频繁项集,阅读体验更顺畅。
如果你对并行算法有兴趣,别错过并行频繁项集挖掘算法的优化研究,能节省不少计算资源。数据量一上来,不并行跑还真扛不住。
还有一个小亮点是数据流方向,比如 MFWSR 这种算法,用来应对实时数据挺合适。嗯,虽然有点小众,但有场景就有价值,参考MFWSR 数据流上的频繁闭项集挖掘算法看看。
建议是,你可以把这本书当作工具箱,按需翻,某个项目刚好用上哪块知识,拿出来补一补挺好。是做 BI、推荐系统、日志挖掘的,常会遇到频繁模式相关的需求。
如果你还想了解更底层的结构优化,比如有向图挖掘,可以看下最大频繁项集挖掘算法,逻辑挺清晰。