数据挖掘的老朋友——关联规则算法数据集.xlsx
,真是挖关联规则的好帮手。格式干净、字段清晰,导入工具像Pandas
或Excel
都毫无压力。适合跑Apriori
这种经典算法,想练手、做实验、写教程都挺方便的。
Apriori 算法的数据嘛,重点就是事务项集要规整,这个表格已经给你好八成了。你只需要读进去,转换成列表或DataFrame
,一键喂给算法跑就行,响应也快,逻辑也直。
如果你正好在做关联规则的入门练习,或者准备课设、Demo,这个文件真挺省事的。数据量不大不小,适合本地跑也适合丢进Colab
调试。
我之前在讲Apriori
和FP-growth
的时候也用过类似格式的数据集,效果还不错。用mlxtend
的apriori
模块,配合association_rules
函数,输出结果一目了然。
对了,想扩展点思路?你可以看看这些:
- 关联规则数据挖掘算法 - 基础概念和原理讲得蛮清楚
- Apriori 关联规则挖掘算法 - 专门讲 Apriori,还有伪代码
- 多层关联冗余过滤数据挖掘关联规则 - 想搞复杂点可以参考这个
- 挖掘多层关联规则 - 多层结构怎么做,讲得还行
如果你是初学者,可以直接用这个数据集跑一下,理解频繁项集和置信度;如果你已经会了,那用它来优化过滤逻辑或者测试自定义算法也挺有意思。