R 语言的聚类工具挺多的,方法也蛮灵活,像是 k-means、层次聚类这些都挺常见。用 R 做聚类呢,代码量不算大,逻辑也比较清晰,适合快速上手。尤其是你手上有点结构混乱的数据,不知道怎么分组?聚类能帮你捋顺思路。本文不仅讲了原理,还给了示例代码,照着跑基本都能出结果。
有几个点值得注意,像 k-means 对初始点比较敏感,跑多几次效果更稳。密度聚类(DBSCAN)适合噪声多的数据,不过参数调不好结果会差点意思。你可以结合业务需求,选最合适的来用。顺带一提,后面几个链接,Python 和 MATLAB 实现也有,跨语言使用也没啥障碍,思路是通的。
如果你平时用 R 多,想点客户、商品、文本之类的数据,蛮推荐你看完这篇,能省你不少时间。