数据挖掘里的关联规则,真的是挺实用的一招。尤其是做用户行为的时候,能帮你找出那些看起来没啥联系,实际却经常一起出现的项目组合。想找点资料?我最近翻到一个 PDF 资源,整理得还挺全的,顺手还贴了几个关联规则相关的文章链接,你可以按图索骥地看。
Apriori 算法的逻辑直白:先找频繁项,再一步步扩展组合。思路简单,落地也不难,适合入门和小规模实验。像那篇Apriori 关联规则挖掘算法,里面把步骤讲得比较清楚,新手也能看明白。
如果你已经熟悉点机器学习的套路,可以看看关联规则挖掘算法那篇,稍微技术点,但里面提到的支持度
、置信度
这些指标,还蛮有意思。打个比方,你在做商品推荐时,经常买 A 的人是不是也买 B?这就靠这些指标来判断。
另外,关联规则也不错,主要讲怎么在实际数据中找到“有价值”的规则,而不是乱七八糟全扔上去。用错地方,反而会让系统推荐变得迷。
,如果你最近正好在做电商推荐、用户偏好或者日志挖掘,那这个 PDF 资源可以当个参考手册看。如果你已经用过Apriori
,还可以继续往 FP-Growth 那一类高阶挖掘方法去拓展。