数据挖掘前的数据准备,多人都容易忽略,但其实这一步做扎实了,后面建模省不少麻烦。Weka的入门教材里,tbank-data数据集用得挺多,字段清晰,类型也丰富。像age是数值型,sexmarried这类是分类的,结构比较规整,适合用来练习各种预操作。

属性选择这块儿,Weka 也挺贴心,内置了不少评估器和搜索方法,比如 InfoGainAttributeEval 搭配 Ranker,一看就知道哪些字段是“有料”的。你可以参考使用 weka 进行属性选择这篇,写得还挺细。

PEP 字段这个蛮有意思,它其实是个目标变量,代表客户有没有买个人参股计划(Personal Equity Plan)。所以数据挖掘主要就看能不能从其他字段预测这个行为。分类算法像 J48NaiveBayes 都可以试试,Weka 里点两下就能跑。

字段含义不清楚?别怕,有个老文章整理得全,参数的含义这篇挺值得一看,是新手不容易搞混。

如果你是刚接触数据挖掘,用 Weka练手是不错的选择。界面简单,功能够用,连建模、验证都能一条龙搞定。多跑几遍属性选择+分类流程,思路就清晰了。