直接用 ARFF 文件的 WEKA 数据准备方式,挺适合懒得折腾格式转换的你。支持从CSV
、C4.5
甚至数据库直接读数据,省不少事儿。像我平时用 Excel 数据,直接另存成CSV
,再用 WEKA 导入,一步到位,蛮方便的。
ARFF 格式是 WEKA 最认的格式,你用 WEKA 做数据挖掘,第一步基本都绕不开它。不过也别怕,WEKA内置了格式转换工具,CSV
转ARFF
,点几下搞定,响应也快,效率高。
从数据库拉数据也 OK,JDBC支持,连接MySQL
、Oracle
都没问题。你只要配好连接字符串和查询语句,数据就能一股脑拉进来,适合和现有业务系统对接。
支持从 URL 加载数据这个功能也挺有意思,适合搞点实时数据挖掘练练手。比如你搞个接口给设备上传数据,WEKA 也能直接吃进去。
另外给你几个挺实用的链接,比如CSV 另存为 ARFF,还有数据格式解析,都可以参考一下,用起来更顺手。
如果你用 Excel 做数据清洗,可以多关注下格式一致性,是字段命名别带空格,不然导入时容易报错。