Spark学术论文热点挖掘方法

基于 Spark 的 LDA 模型优化方案，挖掘学术热点还挺有一套的。利用 LDA 主题建模，再加上困惑度调参，主题数量自动选，后面还把文档-主题和主题-词搞成评分矩阵，计算相似度一顿，结果就是——热点主题就这么找出来了。跑在 Spark 上，大规模论文数据也不含糊，速度快、效果稳。

嗯，要是你也折腾过LDA，应该知道它参数多、效果还容易飘。这种结合Spark MLLib的改进做法，真的是蛮实用的。尤其适合做科研、搞数据挖掘的同学参考一下。推荐配合下面这些资源一起看，比如Python实现的 LDA 时间主题模型、还有老牌NLPIR系统，也都挺有料的。

提醒下，跑Spark任务记得合理分配资源，尤其是内存，一不小心就 OOM 哦。