基于 MapReduce 架构的并行矩阵 Apriori 算法的论文,挺适合搞大数据挖掘的你看一眼。原来的 Apriori 虽然能跑,但 I/O 开销大、数据库来回扫好几遍,效率不太行。这个改进版叫Apriori_MMR,用了矩阵压缩+数据划分那一套,把候选项的生成步骤简化了不少,只扫两次库,省事多了。

你要是用过普通的MapReduce 版 Apriori,就知道节点多了反而通信压力大,这篇文章也做了节点数对比实验,还挺实在——Apriori_MMR 效率基本是原来 2 倍,支持度设置得越低越,挺适合用在那种长尾数据的场景里。

而且它把矩阵压缩思路带进来了,在多维事务数据上也能节省不少空间。要跑大批量规则挖掘,这套逻辑其实比 FP-Growth 还轻一些,不挑内存,适合资源不多的分布式环境。

顺手整理了一些周边资源,你可以按兴趣点点看:

如果你正好在做分布式数据挖掘,尤其是跑大数据集关联规则的任务,建议直接研究一下Apriori_MMR的实现逻辑。数据库扫描次数少、压缩快,挺适合拿来做实际业务优化的。