清华大学软件学院的第二次数据挖掘大作业,挺适合想练手 Weka 的你。内容主要围绕几个经典的分类算法和 关联规则挖掘,上手快、资料也多,适合新手熟悉工具的同时理解算法思路。

Weka 的关联规则挖掘操作还算直观,像 Apriori 算法,只要理解了最小支持度和置信度这些基本概念,用起来不难。比如设置 minSupport=0.1,容易就能跑出一堆有趣的规则。

分类算法部分,也有不少能玩的,比如 J48NaiveBayes,适合对比体验不同模型的输出效果。你可以用自带的 weather.arff 文件跑一跑,效果挺直观的。

几个相关链接也挺有用,像WEKA 关联规则挖掘教程就比较系统,讲得也清楚,跟着做一遍基本就能上手。

嗯,如果你是第一次接触 数据挖掘,又刚开始玩 Weka,这个作业资源挺合适的。建议配合图形界面+命令行双模式学习,效率更高。

对了,关联规则的参数设置也别忽略,推荐你看看这篇参数设置实战,细节讲得到位。