中文版数据挖掘电子书的第六章,讲的是聚类,内容挺系统的,尤其适合刚入门的朋友。讲了啥是聚类、常见方法怎么用,还有不少实际案例,读完你就知道聚类怎么用在商业、医学、GIS 这些领域了。里面对欧氏距离、密度方法这些也解释得比较清楚,关键是例子蛮接地气,不是那种看了半天不明所以的风格。
像K-Means、DBSCAN这种方法,讲得也不算太深奥,看着图和例子能跟得上。你平时要做个用户分群啥的,里面的思路其实就够用了。还有一点值得说,说到了高维数据、复杂数据类型的一些挑战,这部分其实不少书都一笔带过,但它讲得还挺实在,算是加分项。
如果你在搞机器学习、数据方向的前端工具开发,了解点数据挖掘原理其实有用。有时候做图表、调交互也能少走点弯路。嗯,这章内容你可以边读边对照项目想想看,思路会清晰不少。
顺手推荐几个相关资料,像《探索无监督学习》和《半监督学习实战指南》,都还蛮实用的,适合搭配着读。
如果你是前端开发,最近在接触数据可视化,或者和后端联调数据聚类结果,不妨看看这章,花不了多少时间,但能帮你多懂点背后的逻辑。