频繁项集挖掘里的老熟人——Apriori 算法,原理不难,主要靠“多扫几遍+剪一剪”的套路来搞定。它的思路挺朴实的,先找到 1 项集,一步步扩展成 2 项、3 项……中间还得靠连接剪枝两个关键动作,效率虽然比不上 FP-Growth 那种爆裂选手,但胜在逻辑清晰,容易理解。

Apriori 算法的核心就是通过不停扫数据库,统计各个项集的支持度,把那些达不到要求的项砍掉,继续扩展更大的项集。比如你要找出经常一起买的商品组合,那它就挺适合,尤其数据不算太大的时候。

它的连接规则也挺有意思,像在玩拼积木:两个项集前 k-1 项一样,就能拼成 k 项集。拼完之后还得过剪枝这关,不符合支持度阈值的统统丢掉。

啦,要真用起来,建议你配合点优化策略,比如用Hash Tree加快候选集计数,或者先在样本数据上测试一下再上生产。

想更深入一点,下面这几个链接你可以看看,讲剪枝、度量、优化啥的都还不错:

如果你在做商品推荐、行为之类的数据挖掘,那这套思路还蛮值得一试的,逻辑清楚,调试起来也不麻烦。