Weka数据准备与属性选择实践教程

数据挖掘前的数据准备，多人都容易忽略，但其实这一步做扎实了，后面建模省不少麻烦。Weka的入门教材里，tbank-data数据集用得挺多，字段清晰，类型也丰富。像age是数值型，sex和married这类是分类的，结构比较规整，适合用来练习各种预操作。

属性选择这块儿，Weka 也挺贴心，内置了不少评估器和搜索方法，比如 InfoGainAttributeEval 搭配 Ranker，一看就知道哪些字段是“有料”的。你可以参考使用 weka 进行属性选择这篇，写得还挺细。

PEP 字段这个蛮有意思，它其实是个目标变量，代表客户有没有买个人参股计划（Personal Equity Plan）。所以数据挖掘主要就看能不能从其他字段预测这个行为。分类算法像 J48、NaiveBayes 都可以试试，Weka 里点两下就能跑。

字段含义不清楚？别怕，有个老文章整理得全，参数的含义这篇挺值得一看，是新手不容易搞混。

如果你是刚接触数据挖掘，用 Weka练手是不错的选择。界面简单，功能够用，连建模、验证都能一条龙搞定。多跑几遍属性选择+分类流程，思路就清晰了。