频繁模式挖掘的项目练习,适合想把 Apriori 和 FP-Growth 这两大经典算法摸透的你。资源用的是 UCI 的 Slice 数据集,挺实用,数据不大,调试方便。你可以自己设定支持度置信度这些参数,边调边跑效果。代码可以用你熟的语言来写,像Java或者Python都行。

实现上重点就两个:一个是 Apriori,另一个是 FP-Growth。要是你之前只接触过 Apriori,那推荐你也试试 FP-Growth,结构紧凑,效率也高。你可以参考一下这篇FP-Growth 与 Apriori 比较,对上手挺有的。

项目要求你在 UCI 的 Slice 数据上验证算法效果,但其实你要是手头有业务数据,也可以用上。只要能数据的来源和结构,老师一般都认。像你在用户行为、症状联动这类场景上,就适合用 Apriori。顺便推荐一篇案例文章挖掘疾病症状关联规则,逻辑挺清晰。

输出的频繁项集和关联规则建议你保存成.csv或者直接在控制台打印,方便复查。实验代码也要整洁,注释别太吝啬,不然回头自己都看不懂。提醒一下:运行 FP-Growth 时注意树结构别写复杂了,递归深了容易卡。

如果你正准备交个靠谱的数据挖掘课程设计,可以试着从这个项目入手,工具成熟、文档丰富,上手快还容易出效果。