数据预的第一步,往往是格式转换。bank-data.xls这个文件就是典型例子,Excel 格式得先变成 Weka 能读的.arff。操作也不复杂,用 Excel 另存成.csv,再扔进 Weka 保存一下就行了,挺顺的。

Weka 的 Explorer 界面还挺直观的,你只要点Open file,选中刚才导出的bank-data.csv,点save,选Arff data files格式,文件名随便起,比如bank-data.arff,保存就搞定。

这种方式适合刚入门的同学,是你还不太熟Python或者Pandas的话,用 Weka 图形界面更省事。而且小文件效果还不错,响应也快。

如果你后面想搞点自动化的预,像是批量清洗、缺失值填充啥的,可以看看Scikit-learn的预技术,或者试试Kettle这种可视化 ETL 工具,也挺香。

哦对了,还有几个相关资源也挺值得看一眼:

如果你正准备做个小型数据挖掘实验,这套流程可以直接套用,简单高效。