文本挖掘的聚类还在自己撸代码?嗯,有点费劲。input2.txt
这个资源就挺省事的,预、分词都安排好了,关键是特征项聚类效果还蛮靠谱,比较适合做文本分类、舆情这类需求。
里面的流程比较清晰,比如你拿到一堆用户评论,先清洗文本,再用它做分词,跑一波KMeans
或者DBSCAN
,直接就能聚出不同话题,挺适合快速验证方案的。
跟它搭配的几个文章资源也蛮有用,Gensim 的 LDA 代码那篇(看这)我试过,配起来用效率挺高。还有一些像语义、分词词频的内容,能补你在特征提取这块的短板。
要注意的一点是:分词质量影响大,建议你换成jieba或者THULAC这种开源分词库自己调一下。还有聚类的时候别忘了先做个TF-IDF或者Word2Vec向量化,不然聚出来就全在一堆了。
如果你最近在折腾文本挖掘项目,不妨把input2.txt
当成个起点。快速上手,还能少踩点坑。