数据挖掘里的关联,属于那种看起来有点复杂,但上手后就挺有意思的技术。尤其像用train.csv
这种交易记录的数据集,拿来做市场篮子真的还蛮合适的。
Apriori 算法是比较经典的一种做法,逻辑上也不难理解。它主要是通过频繁项集来筛选出有关系的东西,比如“买了 A 的人也容易买 B”。嗯,说白了就是找出有意思的购物搭子组合。
数据预这块,别跳过,挺关键。像清洗数据、编码、转换这些步骤做得扎实,后面跑算法才能顺利。尤其是编码,不转成数值格式,多库都直接报错。
规则筛选时你可以根据支持度和置信度设个阈值,比如支持度低于 0.1 就别要了。规则多的时候还可以用可视化工具来过滤一下,图表或交叉表都还不错。
想更深入一点,推荐几个链接看看:
如果你手上也有类似train.csv
这样的数据,不妨试试跑一下 Apriori,玩起来还是挺上头的。数据量大的话记得用些性能优化的写法,比如剪枝、限制项集长度什么的。