微博文本的高维稀疏,老实说,用传统方法真挺头疼的。LDA 模型这种主题模型就派上用场了,不过嘛,原始 LDA 没考虑用户个人特征,用在微博上多少有点水土不服。

于是有了ATM 模型,加了作者维度,想法挺好,但微博这种地方,转发、互动多,单一作者假设就有点扯了。你说一个热门话题,哪能只有一个人说事?

ULLDA的出现算是补上了这块短板,它支持多个作者“贡献”同一条微博内容,还考虑了微博的传播结构,比如用户关系、话题热度啥的。挺聪明,挺实用。

模型跑在NLPIR 数据集上,结果也给力,比 ATM 强不少。要是你正好做微博相关的挖掘任务,比如用户画像、话题追踪、推荐系统,这个 ULLDA 模型值得一试。

哦对了,如果你想从代码层面入手,下面这些资源也挺有参考价值的:

如果你正卡在微博文本的建模问题上,可以考虑把 ULLDA 加进你的工具箱里试试看。