Stopwords中文停用词表

中文分词的 stopwords 文件，说实话，还挺实用的。你用结巴分词的时候，是不是总觉得有些词不该出现在结果里？比如“”“的”“了”这种？就是这些常见词，虽然没什么实际意义，但又老是蹦出来干扰你模型判断。用这个stopwords.txt，效果还蛮的，能清掉不少噪音，分词干净多了。

文件来自结巴分词社区那一挂的，内容说不上完美，但拿来做日常分词预已经够用。尤其你要短文本、社交评论、标题什么的，停用词过滤基本就是刚需。

了，如果你词表还想再丰富点，可以去看看几个配套资源，比如中文停用词词表，或者Stopwords 中文列表这些，内容挺全的，合在一起用也 OK。

用的时候记得统一编码（推荐utf-8），不然容易出乱码。你也可以自定义点业务相关的词进去，比如你不想让“点击”“查看”出现，那就加进去喽。如果你在做elasticsearch的中文搜索，搭配这个文件也蛮合适。

，分词准确了，后面的分类、聚类、向量化这些才更靠谱。中文文本，先把停用词表搞好，是我一直坚持的“小习惯”。如果你正在做分词优化，不妨试试这个资源。