直接用 ARFF 文件的 WEKA 数据准备方式,挺适合懒得折腾格式转换的你。支持从CSVC4.5甚至数据库直接读数据,省不少事儿。像我平时用 Excel 数据,直接另存成CSV,再用 WEKA 导入,一步到位,蛮方便的。

ARFF 格式是 WEKA 最认的格式,你用 WEKA 做数据挖掘,第一步基本都绕不开它。不过也别怕,WEKA内置了格式转换工具,CSVARFF,点几下搞定,响应也快,效率高。

从数据库拉数据也 OK,JDBC支持,连接MySQLOracle都没问题。你只要配好连接字符串和查询语句,数据就能一股脑拉进来,适合和现有业务系统对接。

支持从 URL 加载数据这个功能也挺有意思,适合搞点实时数据挖掘练练手。比如你搞个接口给设备上传数据,WEKA 也能直接吃进去。

另外给你几个挺实用的链接,比如CSV 另存为 ARFF,还有数据格式解析,都可以参考一下,用起来更顺手。

如果你用 Excel 做数据清洗,可以多关注下格式一致性,是字段命名别带空格,不然导入时容易报错。