连续属性的离散化一直是做分类模型时绕不开的点,尤其你用C5.0决策树的时候,区间怎么分,直接影响最终效果。论文研究-一种连续属性值域划分的离散化新方法.pdf里讲的这个方法,还挺实用的。

新的离散化函数挺有意思,关键不是简单分区间,而是看属性和类别之间的依赖关系,再来决定怎么划分。这就比那种“按等宽、等频来切”的方式聪明多了,分得更贴合数据本身。

再一个亮点是用到了变精度粗糙集,主要是为了控制信息丢失。说白了,就是既能压缩数据,又不容易把关键特征给弄没了。对做特征工程的你来说,这点蛮关键的。

要是你正在搭决策树模型,或者搞属性约简那一套,这篇论文值得一看。顺手也整理了些相关资源,比如MATLAB 实现WEKA 可视化C++ 示例代码这些都有,对照着研究更方便。

建议先从论文里把逻辑理清,看看这些实战资源:C5.0 决策树实战C++实现示例WEKA 可视化教程,都还挺有参考价值的。

如果你正为怎么把连续变量搞得更“听话”而头疼,这篇可以给你些思路,嗯,蛮值得花时间的。