中文文本的老问题之一就是“停用词”。stopwords.txt这份文件就挺实用的,词表比较全,常见的“的、了、在、和”全都涵盖到了,拿来就能直接上手。嗯,尤其你在做jieba分词或者训练文本分类模型的时候,过滤一下这些词效果会好多。

自然语言的项目里,停用词基本是刚需。不管你是用sklearn还是gensim搞文本,先把这些无效词去掉,模型才不会被干扰。你只要把这份stopwords.txt加载进来,判断if word not in stopwords,一行代码搞定。

我平时新闻语料、爬虫抓到的论坛文本,都会优先用这类通用的停用词列表。后期你也可以根据实际情况改一下,比如某些领域词是重点,那就从列表里剔除。资源下载也挺方便,在这里能直接下。

如果你还不太熟 NLP,可以先看看Python 自然语言的实践应用这篇文章,里面例子挺丰富的,还有代码。这个stopwords.txt蛮适合新手上手,也适合老司机做预加速用。

用的时候别忘了统一编码格式,有些版本是GBK,建议你先转成UTF-8,不然一读取就乱码。