数据挖掘里的老炮儿算法,C4.5k-Means绝对得提一下。C4.5就是那种擅长做分类判断的老江湖,能缺失值、连续属性,还支持剪枝,泛化能力比较强。虽然效率一般,但稳定性、准确率都挺高,尤其适合做结构清晰的分类任务。

k-Means是聚类界的门面担当,逻辑不复杂,速度也快,挺适合快速划分数据群组的需求。想分个用户群、找出购物行为相似的群体,它还蛮合适的。但它对初始值比较敏感,结果容易被随机初始点带歪,得多跑几次取平均。

如果你喜欢实战代码,有几个语言版本推荐给你:C 语言实现Python 版Matlab 写的,都还挺适合入门和练手。

另外,Apriori在做商品推荐这块也常见,SVM在文本分类和图像识别上也挺能打。想全面了解这十大算法,不妨系统过一遍,思路会打开不少。

如果你最近刚好在做聚类,这个 K-Means 优化思路可以看看,里面讲了不少实用的小技巧。