C4.5 算法的优点之一,就是它不仅能离散属性,还挺擅长搞定连续属性。之前用 ID3 的时候还得手动离散化,真挺麻烦的。现在有了 C4.5,分类精度高了不说,数据预也省了不少事。尤其在做医疗、金融那些数值属性多的场景,挺省心。

MATLAB 的实现版本也还不错,网上有人直接给了源码,想研究下具体逻辑的可以直接下来看。你要是做 Java 开发,那也有现成的ID3 算法实现,拿来改一改就能跑。

另外,如果你只是想先了解下原理,信息增益信息增益率这些概念也讲得比较清楚,逻辑挺顺的。尤其是决策树那块的拆分思路——一层一层选属性,划子集,慢慢把分类搞准,像分果子一样,思路还挺有画面感。

哦对了,还有一篇用神经网络 BP 算法和 C4.5 做乳腺癌诊断效果对比的文章,实战参考性也不错。看完你就知道什么时候该上树,什么时候该堆网络了。

如果你平时也折腾点数据挖掘的项目,可以收藏下面这几个资源,代码+原理+案例,组合拳够你用一阵子:

嗯,如果你刚好想找点靠谱的决策树学习材料,挺推荐这些链接的,理论、实现、案例都有,拿来就能用。