基于百度贴吧数据的用户行为模型,蛮适合对线上 HIV 高危人群做探索性研究的。用的是LDA 话题模型关键词分类这种比较常见但实用的机器学习方法,能自动挖出用户讨论的重点,还能通过话题判断用户的性取向,听着有点神奇,但其实原理还挺简单。结合贴吧发帖时间、频率啥的,也能摸索出用户的活跃规律。

像这种基于现成论坛内容的数据挖掘,适合搞舆情监控、疾病预警这类的应用。比传统调研高效多了,不用发问卷、不用做访谈,直接线上爬数据、跑模型,效率高。

感兴趣的话你可以看看这几个资源,有建贴吧论坛的、也有抓贴吧数据的:

如果你也在研究用户行为、疾病传播模型,或者对 LDA 和线上人群分类感兴趣,可以试试用贴吧这种用户密度高的平台做数据源,性价比还蛮高的。