Apriori_MMR基于MapReduce的并行矩阵挖掘算法

基于 MapReduce 架构的并行矩阵 Apriori 算法的论文，挺适合搞大数据挖掘的你看一眼。原来的 Apriori 虽然能跑，但 I/O 开销大、数据库来回扫好几遍，效率不太行。这个改进版叫Apriori_MMR，用了矩阵压缩+数据划分那一套，把候选项的生成步骤简化了不少，只扫两次库，省事多了。

你要是用过普通的MapReduce 版 Apriori，就知道节点多了反而通信压力大，这篇文章也做了节点数对比实验，还挺实在——Apriori_MMR 效率基本是原来 2 倍，支持度设置得越低越，挺适合用在那种长尾数据的场景里。

而且它把矩阵压缩思路带进来了，在多维事务数据上也能节省不少空间。要跑大批量规则挖掘，这套逻辑其实比 FP-Growth 还轻一些，不挑内存，适合资源不多的分布式环境。

顺手整理了一些周边资源，你可以按兴趣点点看：

如果你正好在做分布式数据挖掘，尤其是跑大数据集关联规则的任务，建议直接研究一下Apriori_MMR的实现逻辑。数据库扫描次数少、压缩快，挺适合拿来做实际业务优化的。