数据挖掘里的聚类算法,蛮像给一堆杂乱数据贴标签。没监督、没预设分类,全靠算法自己“看眼色”分组。你常听的 K-meansDBSCAN层次聚类这些,其实都挺有用,尤其是数据量一大,一些算法还真挺考验性能的。像DBSCAN那种,对带噪声的数据还挺友好,密度高的就抱一团,孤零零的直接丢一边,清爽利落。哦对,如果你玩的是高维数据,可以看看SOMSpectral Clustering,效果比传统算法靠谱多了。建议先挑熟的上手,等摸清套路再折腾那些参数敏感的,不然调参能把人劝退。