输入数据的自动聚类,用的是经典的K 均值算法,逻辑简单、上手快,蛮适合刚接触数据挖掘的你。整个流程也比较清晰,先选中心,再分组,迭代直到不变,基本就是聚类算法的套路。
步骤里用的是距离函数,你可以根据场景选欧几里得或者曼哈顿,像图片聚类用欧几里得就挺顺。重点是每次更新簇中心都靠平均值算的,响应也快,代码也简单。
配套资源也挺全的,不管你用MATLAB写还是想了解变种算法,相关链接都整理好了:K 均值聚类算法、基于多维数据的初始中心、K 均值源码(MATLAB),这些都能直接上手跑。
如果你正好在做项目,遇到数据聚类场景,比如客户分群、图像、文本分类,都可以先用 K-means 试一把。注意初始中心选得好坏会影响结果,多跑几轮看看稳定性。