聚类的老教材了,Clustering.Wiley.2009算是入门和进阶都能兼顾的那种。讲得比较细,例子也挺实在,尤其适合你想搞清楚聚类背后的逻辑,比如怎么分组、怎么度量距离这些问题。
里面重点讲了像K-Means、层次聚类这类经典算法,讲法不算花哨,但还挺系统的。你平时用 Python 写点数据挖掘脚本,拿这本书来补底子还蛮不错的。有时候遇到模型聚不了类,看下这些原理,说不定就通了。
如果你对算法怎么跑出来的过程感兴趣,推荐你看看这个《聚类算法》,里面整理了不少算法变种,也有可视化例子,看起来比较轻松。
还有一篇《探究层次聚类:数据挖掘中的聚类》,写得蛮接地气的,拿业务数据举例挺多。嗯,比较适合边看边实践。
如果你是做前端又对数据这块感兴趣,建议配合看下 JavaScript 数据库,比如D3.js或TensorFlow.js,跟聚类结合做点可视化实验,挺好玩的~
,Clustering.Wiley.2009
不花哨但靠谱,适合你静下心来啃点底层原理。如果你想边学边写,可以先从 K-Means 开始试水,逻辑清晰,代码也不难写。