UCI 的数据集资源,挺适合搞数据挖掘入门用的。WEKA 自带的一些样例数据也不错,路径直接丢在C:\Program Files\Weka-3-6\data
就能找到,不用额外下载。
UCI 的官方数据集目录挺全,分类也清楚,像seeds
、iris
这些经典数据集,拿来练手刚刚好。格式一般是.arff
或者.csv
,用 WEKA 打开直接跑。
如果你对ARFF
文件格式还不熟,可以看看这个,讲得挺直白。基本上就是文本格式+一些头部,结构清晰明了。
WEKA 那块,如果你刚接触,可以顺手翻翻中文教程,界面操作为主,不用太担心代码,拖一拖、点两下就能跑模型,体验还蛮友好的。
另外推荐几个相关资源,有些是 UCI 数据集的使用示例,比如这个合集,也有讲海量数据集的,比如这篇文章。如果你想深入搞挖掘,可以看看。
,WEKA + UCI 基本就是数据挖掘的入门标配。如果你是初学者,先从小数据集练手,熟了再搞复杂的。ARFF 格式别怕,看几遍就顺了,别忘了多跑几次实验,经验都是这样一点点积累的。