Python 写的 Kmeans 聚类算法代码,思路清晰,结构也比较简单,蛮适合拿来当入门练手项目的。用的是经典的鸢尾花数据集,k=3,每个样本4 维特征,分类目标也比较明确,方便调试。

课程作业改的版本,逻辑直接,适合你快速掌握 Kmeans 的基本流程。像是怎么初始化质心、如何计算样本间的欧式距离,还有怎么判断收敛,代码里都有体现。

讲到相似度的衡量,这里用的是“距离越小越相似”的逻辑,挺直观的。就像现实中会根据说话口音聚类人群,这里的聚类也是类似的思想。

有意思的是,还提到了大规模用户数据的应用场景,比如微博推荐。这种从小样本练到大数据的思路,挺实用的。

如果你刚好在研究聚类,或者准备复习模式识别课程,这份代码可以拿来试试改改,看下每一步效果,锻炼理解力。

对了,感兴趣的话你也可以看看下面这些相关资源,扩展一下知识面,搞清楚 Kmeans 的变种和应用会更有。