过渡拟合问题的决策树算法,真的是一个老生常谈但又容易踩坑的点。

算法的每个分支都在追求完美分类,听着挺牛的,但当训练数据本身有噪声或者样本太少时,就容易走极端——就是说的过拟合。树越长,不一定越聪明,反而容易被数据“骗”。

你要是正好在搞数据挖掘或者在用决策树做分类预测,这篇内容可以帮你绕开一些常见陷阱。里面还贴了几个链接,像是讲过拟合与欠拟合的关系,还有训练集和测试集的划分方法,挺系统的。

建议你在用像ID3C4.5这种经典算法时,别光想着追高准确率,适当剪枝,或者换成像随机森林这种组合方法,抗噪性会更强。

如果你现在正被训练效果困住了,不妨看看数据挖掘决策树这篇文章,或是过拟合与欠拟合的详细,能帮你理清多思路。