聚类的视频讲得还挺清楚的,是入门部分,概念、数据结构、还有怎么量距离这些都讲到了。基于王斌会的教材,内容比较系统,适合你用 R 建模的时候参考一下,哪怕你用的是 Python、MATLAB 也能听懂思路。视频时长不长,刷一遍不会太累,重点也讲得比较集中,挺适合做复习用的。
聚类的概念讲得还蛮通俗,比如怎么把一堆数据根据“长得像不像”分成一群一群的。听起来挺简单,其实里面不少细节要注意,像距离计算就有好几种方式,欧几里得距离
、曼哈顿距离
什么的,选错了效果差远。
你要是对数据结构还不太熟,建议先看下这篇相关文章:常用数据结构在聚类中的应用,里面把各种结构用在哪些场景讲得蛮清楚。嗯,配合视频一起学会更快上手。
想看实际代码的可以点这篇:MATLAB 数据聚类示例代码下载,虽然是 MATLAB,但思路通用,像用kmeans
、hierarchical clustering
这些方法,换成 R 也就几行代码。
别忘了这篇:数据挖掘中的聚类综述,算是补充阅读,内容比较全面,适合你想深入了解点实际场景,比如电商推荐、图像识别这些。
如果你刚开始接触多元统计,这段视频还挺适合当作起点。配上点代码实操,学起来事半功倍。