最小支持度和最小置信度的定义,其实挺容易搞混的,是刚开始接触关联规则的时候。tinyxml 指南这篇中文算是比较清楚的,直接把公式和概念一块儿整上来了,简单明了,适合快速查漏补缺。

支持度的意思其实就是你观察到A 和 B 一起出现的概率,而置信度就是如果 A 出现了,那 B 出现的概率。别被公式吓到,P(A ∩ B)P(B | A)就是这么回事。

文中也提到最小支持度最小置信度是人为设的阈值,筛选出你觉得靠谱又有价值的规则。比如你不想被偶发的组合干扰,那就设置高点;要是想尽挖掘多点关系,就设低点。

看完这篇如果你对实现原理感兴趣,还可以看看相关文章,比如用Hash Tree 优化支持度的算法,还有Apriori规则挖掘的技巧,链接我放下面了,点进去就能看。

如果你平时搞数据挖掘或是想用 JS 做点数据可视化,这种规则其实可以直接转成推荐逻辑来用。挖掘出来的“强规则”,拿来做商品推荐、内容推送,效率还挺高。

哦对,提醒一句,别光看公式,最好搭配实际数据跑一遍。像mlxtend那种 Python 库就蛮好用的,支持 Apriori 直接一键生成支持度/置信度。