WEKA 的.arff 数据集用起来其实蛮顺手的,尤其是你用 WEKA 做分类、聚类那类实验的时候,直接拿来就能跑,基本不用折腾太多格式转换。它的数据结构就是那种类似 Excel 的二维表,不过多了点@开头的标签信息,看着有点眼熟但又不太一样。
ARFF 格式的文件其实就是带结构的文本文件,上面是属性信息,下面是数据本体。你要自己写也不难,手撸几个字段就能跑。要是你懒得写,网上也有多现成的,比如 UCI 那些。
推荐你看看ARFF 数据集详细解读这篇,里面讲得比较细,还有格式示例,照着改就行了。
如果你想拿些练手数据跑跑模型,像20 个 Weka 机器学习数据集挺全的,分类、回归啥的都有,直接丢进 WEKA 里试就行,响应也快。
而且不止 ARFF 格式哦,像Web 数据挖掘实验的 PPT也有数据应用思路,适合项目入门参考。还有像MovieLens、Lastfm这种数据集也可以转成 ARFF 用,内容也蛮有意思。
要是你做图表,Seaborn 数据集、PCA 数据集这些也值得一试,改一下结构就能拿来喂模型。嗯,别忘了你还可以用Weka+Matlab一起搞,数据加载啥的都比较灵活。
如果你刚入门 WEKA,可以从这些资源慢慢玩起来,边看边试,挺快就上手了。用不惯界面?没事,ARFF 文件扔命令行照样跑。