高维稀疏相似矩阵的文本聚类方案,老实说还挺实用的。融合了层次聚类划分聚类的思路,用一个阈值动态选聚类方式,这种设计挺巧,既省计算量,准确率也没掉太多。

文本越来越多,尤其中文文本,普通聚类搞不好容易失焦。这个算法考虑了中文分词的特性,对中文聚类友好多。你要是常内容分类、自动标签这类场景,可以试试这个思路,改一改甚至能直接上生产。

算法的机制是:先看相似度,如果小于设定阈值就新开一个簇,否则归到最近的那个里头。听起来简单,但跟传统聚类比起来,确实更灵活,适合那种主题跨度大的内容池。

想深入挖的可以看看Chameleon 算法,也是主打层次聚类的,组合着用效果更稳。对了,还有一篇讲 K-medoids 的也不错,点这

,这种融合派的聚类法,适合你手里数据分布不太均、又要兼顾效率和准确率的时候。如果你数据量不算太大,又想让聚类结果更贴题,那真的可以试试这个。