Dirichlet过程混合模型及其内核的文档挖掘方法研究论文

狄利克雷过程的文档聚类方法还挺有意思，尤其是对文本文档这种没啥结构的东西，起来还挺顺手的。传统方法都得先猜个聚类数 K，一旦猜错就容易翻车。而这个基于Dirichlet 过程混合模型的做法就比较灵活，K 不用你来定，模型自己边跑边长，适合你不知道该怎么分的时候。

模型的核心逻辑其实就是边学习边决定类别数，有点像那种“先不急着下定论，边聊边看”的风格。再加上它识别了判别词和非判别词这两种词，效果还蛮自然的。非判别词会拖后腿？直接忽略就行，干脆利落。

用R 语言实现也比较方便，尤其是你习惯搞统计的朋友，直接上手不费劲。文中还提到了印度 Dhobi 系统的数据做实验场景，挺有文化趣味的哈。部分也简单直白，思路清晰。

如果你也在做文本聚类、主题建模或者想避开 K 值设定烦恼，这篇论文可以看看。顺手也附了一堆相关资源，有代码、有工具、有教程，适合拿来就用。

比如下面这些还挺实用的：

如果你做项目正好要搞文档自动分组、无监督学习，这篇可以帮你省不少试错时间。