Excel 表格的数据太多太杂?手动转格式太烦?CeDiyez.Excel2ArffConverter这个开源小工具就挺实用的,专门帮你把 Excel 里的内容直接转成ARFF格式,方便拿去喂给WEKA做数据挖掘。
自动识别数据类型、支持工作表选择,转换过程还支持预,比如缺失值、类型转换这些,操作起来蛮顺的。嗯,整个流程都不用自己写脚本,省心多了。
ARFF 格式其实也不复杂,就是 WEKA 爱吃的那种格式,有点像 JSON + CSV 的结合体,头部写字段,下面堆数据。Excel 转过去之后,就可以直接拿来做分类、聚类、建模啥的。
文件里附的screenshots.rar
是界面图,看一眼就知道怎么用了,另一个CeDiyez.Excel2ArffConverter.rar
应该就是源码或者安装包,解压就能跑,不用折腾环境。
对了,它是开源的,代码都能看,你要是想改点啥,比如加个自定义字段命名、加个批量,完全 OK。如果你平时有在用WEKA做模型,或者搞数据清洗,那这个工具还挺省事的,值得收藏。
如果你还不熟 WEKA,可以看看这些文章,入门挺快的: