数据挖掘里的经典老朋友——决策树K-Means,是真的经常用到,尤其是做分类和聚类的时候。像ID3C4.5,用来搭建逻辑清晰的分类模型,还挺方便的,生成的树结构也容易看懂。

ID3 算法就比较适合小规模数据,优点是思路简单,基于信息增益挑选分裂属性。但它不支持连续变量,对大数据也不太友好。

如果你数据量稍微大点,或者属性有连续值,那C4.5就比较合适。它对 ID3 做了不少优化,比如用信息增益率避免偏向多值属性,还能自动离散化连续特征。

K-Means也常见,聚类效果还不错。适合那种你对数据没什么预设标签、就想看看它自己怎么分组的场景。像用户群、商品分类这些都用得上。

不过它对初始簇心挺敏感的,每次跑出来结果都不一样,建议你跑多次、再用平均效果看表现;K 值的选择也关键,肘部法则了解一下。

要是你对这类算法感兴趣,下面这些资源还蛮值得一看:ID3 经典算法信息增益决策树Java 实现的 ID3 决策树及其预测功能MATLAB C4.5 决策树分类算法

如果你刚好在做分类或者聚类项目,不妨试试用这些经典算法,思路清晰,效果也不错~