谱系图的聚类展示方式,挺适合做那种层级清晰的分类效果图。每一层都能看出是怎么一步步聚出来的,对应想分成几类,直接往图上一划就有答案了。实际项目里,像用户行为、市场细分这些场景还蛮常见的。
谱系聚类图的妙处在于,它不是只给你一个死板的结果,而是把整个聚类过程展开了。你想分三类?五类?只要看图,自己划分就行。嗯,不过到底分几类最合适,没个标准答案,更多是看你的需求。
图的生成背后其实就是层次聚类,常用的方法像凝聚型和分裂型两种,前者一步步合并,后者一步步拆分。可视化上,你会看到一个像树一样的结构,所以又叫树状图或谱系图。比如做个用户画像,用户之间的相似度直接从图上看,挺直观的。
代码层面不用太复杂,Python 的 scipy 库里就能搞定。你可以用scipy.cluster.hierarchy.dendrogram
画出图。实测下来,渲染也快,参数也比较友好。
如果你想了解点进阶玩法,比如怎么根据阈值自动切分类别,或者谱系聚类在实际场景中的案例,推荐你看看这些文章:
如果你平时会做数据可视化或者模型的工作,这类谱系图工具值得收藏下,调试门槛不高,上手也挺快。