数据挖掘第四章的 PPT 里,连续属性讲得还挺细,像income > 4200
这种条件判断用得比较多,适合搞分类模型的同学参考一下。你要是用 C4.5、CART 这些算法,就会碰到连续值分裂的逻辑,PPT 里这个点解释得还不错。
比较推荐你搭配R 语言数据挖掘那篇一起看,里面有些案例代码也挺实用的。要是你对 MATLAB 熟,就顺带看看MATLAB 教程第四章,换个角度理解也蛮有收获。
哦对了,连续属性的时候别忘了做归一化
或者标准化
,是你后续还要接模型或者画图的话,不容易出问题。比如收入4200
、10000
差距大,模型容易偏向高值那一类。
如果你还在懵怎么拆分连续变量,可以照着 PPT 例子自己写个if-else
逻辑模拟下,快就通了。如果你是用 Python,写个pandas.cut()
或者np.where()
来试一试也挺方便。