狄利克雷过程的文档聚类方法还挺有意思,尤其是对文本文档这种没啥结构的东西,起来还挺顺手的。传统方法都得先猜个聚类数 K,一旦猜错就容易翻车。而这个基于Dirichlet 过程混合模型的做法就比较灵活,K 不用你来定,模型自己边跑边长,适合你不知道该怎么分的时候。

模型的核心逻辑其实就是边学习边决定类别数,有点像那种“先不急着下定论,边聊边看”的风格。再加上它识别了判别词非判别词这两种词,效果还蛮自然的。非判别词会拖后腿?直接忽略就行,干脆利落。

R 语言实现也比较方便,尤其是你习惯搞统计的朋友,直接上手不费劲。文中还提到了印度 Dhobi 系统的数据做实验场景,挺有文化趣味的哈。部分也简单直白,思路清晰。

如果你也在做文本聚类主题建模或者想避开 K 值设定烦恼,这篇论文可以看看。顺手也附了一堆相关资源,有代码、有工具、有教程,适合拿来就用。

比如下面这些还挺实用的:

如果你做项目正好要搞文档自动分组无监督学习,这篇可以帮你省不少试错时间。