Apriori关联规则挖掘算法原理

频繁项集挖掘里的老熟人——Apriori 算法，原理不难，主要靠“多扫几遍+剪一剪”的套路来搞定。它的思路挺朴实的，先找到 1 项集，一步步扩展成 2 项、3 项……中间还得靠连接和剪枝两个关键动作，效率虽然比不上 FP-Growth 那种爆裂选手，但胜在逻辑清晰，容易理解。

Apriori 算法的核心就是通过不停扫数据库，统计各个项集的支持度，把那些达不到要求的项砍掉，继续扩展更大的项集。比如你要找出经常一起买的商品组合，那它就挺适合，尤其数据不算太大的时候。

它的连接规则也挺有意思，像在玩拼积木：两个项集前 k-1 项一样，就能拼成 k 项集。拼完之后还得过剪枝这关，不符合支持度阈值的统统丢掉。

啦，要真用起来，建议你配合点优化策略，比如用Hash Tree加快候选集计数，或者先在样本数据上测试一下再上生产。

想更深入一点，下面这几个链接你可以看看，讲剪枝、度量、优化啥的都还不错：

如果你在做商品推荐、行为之类的数据挖掘，那这套思路还蛮值得一试的，逻辑清楚，调试起来也不麻烦。