斯坦福的机器学习公开课里的第 7 个作业,讲的是K-means 聚类和PCA 降维,内容扎实,练手舒服。
课程里用的是MATLAB,不过思路通用,换成 Python 也 OK。像kmeans
和pca
函数,都是现成的,调用方便。整个作业流程清晰,先聚类再降维,搭配练,思路还挺顺。
K-means就像把一堆数据分组,每组找个“中心”,让尽量靠近它。注意初始化比较敏感,多试几次效果更稳。PCA 这块主要是降维,把复杂的数据压缩一下,方便后面建模或者可视化。
建议先从ex7.pdf
文档看看流程,再跑一下ex7
的代码,理解会更深。你要是做项目需要做数据预或者模式识别,这俩工具基本是标配。
另外我整理了几个不错的拓展链接,像详解 k-means 聚类算法、Matlab 实现 K-means 聚类算法这些,蛮适合进一步加深理解的。
嗯,如果你最近刚好在学无监督学习或者准备面试机器学习相关的岗位,这个作业挺值得你花点时间啃一啃的。