数据挖掘第四章的 PPT 里,连续属性讲得还挺细,像income > 4200这种条件判断用得比较多,适合搞分类模型的同学参考一下。你要是用 C4.5、CART 这些算法,就会碰到连续值分裂的逻辑,PPT 里这个点解释得还不错。

比较推荐你搭配R 语言数据挖掘那篇一起看,里面有些案例代码也挺实用的。要是你对 MATLAB 熟,就顺带看看MATLAB 教程第四章,换个角度理解也蛮有收获。

哦对了,连续属性的时候别忘了做归一化或者标准化,是你后续还要接模型或者画图的话,不容易出问题。比如收入420010000差距大,模型容易偏向高值那一类。

如果你还在懵怎么拆分连续变量,可以照着 PPT 例子自己写个if-else逻辑模拟下,快就通了。如果你是用 Python,写个pandas.cut()或者np.where()来试一试也挺方便。