中文分词的 stopwords 文件,说实话,还挺实用的。你用结巴分词的时候,是不是总觉得有些词不该出现在结果里?比如“”“的”“了”这种?就是这些常见词,虽然没什么实际意义,但又老是蹦出来干扰你模型判断。用这个stopwords.txt,效果还蛮的,能清掉不少噪音,分词干净多了。

文件来自结巴分词社区那一挂的,内容说不上完美,但拿来做日常分词预已经够用。尤其你要短文本、社交评论、标题什么的,停用词过滤基本就是刚需。

了,如果你词表还想再丰富点,可以去看看几个配套资源,比如中文停用词词表,或者Stopwords 中文列表这些,内容挺全的,合在一起用也 OK。

用的时候记得统一编码(推荐utf-8),不然容易出乱码。你也可以自定义点业务相关的词进去,比如你不想让“点击”“查看”出现,那就加进去喽。如果你在做elasticsearch的中文搜索,搭配这个文件也蛮合适。

,分词准确了,后面的分类、聚类、向量化这些才更靠谱。中文文本,先把停用词表搞好,是我一直坚持的“小习惯”。如果你正在做分词优化,不妨试试这个资源。