过渡拟合问题的决策树算法,真的是一个老生常谈但又容易踩坑的点。
算法的每个分支都在追求完美分类,听着挺牛的,但当训练数据本身有噪声或者样本太少时,就容易走极端——就是说的过拟合。树越长,不一定越聪明,反而容易被数据“骗”。
你要是正好在搞数据挖掘或者在用决策树做分类预测,这篇内容可以帮你绕开一些常见陷阱。里面还贴了几个链接,像是讲过拟合与欠拟合的关系,还有训练集和测试集的划分方法,挺系统的。
建议你在用像ID3
、C4.5
这种经典算法时,别光想着追高准确率,适当剪枝,或者换成像随机森林
这种组合方法,抗噪性会更强。