一种基于层次与划分聚类融合的改进文本聚类算法

高维稀疏相似矩阵的文本聚类方案，老实说还挺实用的。融合了层次聚类和划分聚类的思路，用一个阈值动态选聚类方式，这种设计挺巧，既省计算量，准确率也没掉太多。

文本越来越多，尤其中文文本，普通聚类搞不好容易失焦。这个算法考虑了中文分词的特性，对中文聚类友好多。你要是常内容分类、自动标签这类场景，可以试试这个思路，改一改甚至能直接上生产。

算法的机制是：先看相似度，如果小于设定阈值就新开一个簇，否则归到最近的那个里头。听起来简单，但跟传统聚类比起来，确实更灵活，适合那种主题跨度大的内容池。

想深入挖的可以看看Chameleon 算法，也是主打层次聚类的，组合着用效果更稳。对了，还有一篇讲 K-medoids 的也不错，点这。

，这种融合派的聚类法，适合你手里数据分布不太均、又要兼顾效率和准确率的时候。如果你数据量不算太大，又想让聚类结果更贴题，那真的可以试试这个。