聚类方法的讲义 PPT,内容还挺实在的,适合做数据或市场细分的朋友参考一下。讲得比较清楚,从聚类的基本任务讲到系统聚类法,像k-means欧式距离Q-距离这些常见算法和概念都带到了,搭配案例用起来会更直观。

里面提到的样本分类变量分类,是做初步探索时常见的做法,尤其是在你数据还比较“原始”的时候,用聚类先分个类,再去做判别、降维都比较方便。就像是先把人群按兴趣标签分个组,再研究他们的行为特征。

距离和相似性这块讲得也不啰嗦,比如用欧式距离判断相近,或者用余弦相似度看方向一致,其实你在用sklearn的时候经常得选这些参数,有这个讲义打底,心里会更有谱。

另外提到的系统聚类法,其实挺适合做聚类谱系图,尤其是对数据点少但要看结构的情况,清晰还不费劲。像在抽样设计时搞分层抽样,这种方法也派得上用场。

还有一个小建议:如果你用k-means,记得初始中心点真的挺重要,建议跑几次,或者用k-means++初始化方式,不然聚出来的效果离谱。

这个讲义 PPT 不花哨,但蛮实用,适合新手打基础,也适合老手回顾一下概念。如果你还在找方向或搞不清数据结构,真心推荐看看。