狄利克雷过程的文档聚类方法还挺有意思,尤其是对文本文档这种没啥结构的东西,起来还挺顺手的。传统方法都得先猜个聚类数 K,一旦猜错就容易翻车。而这个基于Dirichlet 过程混合模型的做法就比较灵活,K 不用你来定,模型自己边跑边长,适合你不知道该怎么分的时候。
模型的核心逻辑其实就是边学习边决定类别数,有点像那种“先不急着下定论,边聊边看”的风格。再加上它识别了判别词和非判别词这两种词,效果还蛮自然的。非判别词会拖后腿?直接忽略就行,干脆利落。
用R 语言实现也比较方便,尤其是你习惯搞统计的朋友,直接上手不费劲。文中还提到了印度 Dhobi 系统的数据做实验场景,挺有文化趣味的哈。部分也简单直白,思路清晰。
如果你也在做文本聚类、主题建模或者想避开 K 值设定烦恼,这篇论文可以看看。顺手也附了一堆相关资源,有代码、有工具、有教程,适合拿来就用。
比如下面这些还挺实用的:
- R 语言实现 DPGMM 过程 - 想用 R 跑 DPGMM 可以直接参考
- GMM-Master 工具 - 做数据聚类的通用工具包
- DPMM 边缘检测源码 - 做图像或文本的可以看看
- 潜在狄利克雷分布课件 - 李航的 PPT,适合打基础
如果你做项目正好要搞文档自动分组、无监督学习,这篇可以帮你省不少试错时间。