数据挖掘前的数据准备,多人都容易忽略,但其实这一步做扎实了,后面建模省不少麻烦。Weka的入门教材里,tbank-data
数据集用得挺多,字段清晰,类型也丰富。像age
是数值型,sex
和married
这类是分类的,结构比较规整,适合用来练习各种预操作。
属性选择这块儿,Weka 也挺贴心,内置了不少评估器和搜索方法,比如 InfoGainAttributeEval
搭配 Ranker
,一看就知道哪些字段是“有料”的。你可以参考使用 weka 进行属性选择这篇,写得还挺细。
PEP 字段这个蛮有意思,它其实是个目标变量,代表客户有没有买个人参股计划(Personal Equity Plan)。所以数据挖掘主要就看能不能从其他字段预测这个行为。分类算法像 J48
、NaiveBayes
都可以试试,Weka 里点两下就能跑。
字段含义不清楚?别怕,有个老文章整理得全,参数的含义这篇挺值得一看,是新手不容易搞混。
如果你是刚接触数据挖掘,用 Weka练手是不错的选择。界面简单,功能够用,连建模、验证都能一条龙搞定。多跑几遍属性选择+分类流程,思路就清晰了。