中科院的 ICTCLAS2016 分词系统,算是文本圈里挺常见的一个老朋友了。解压就能用,操作也不复杂,适合做中文分词、关键词提取那类任务,尤其适合快速原型验证。

分词精度高支持词性标注,对初学者和老手都蛮友好。你只需要准备好文本,一扔进去,立马就能得到分词结果,响应也快。

像你要做文本聚类情感、甚至搭配个 jieba 做个对比测试都没问题。对了,它还支持词典扩展,你可以自己加自定义词,让它更贴近你的业务语境。

使用过程中,注意路径别用中文,另外在 Windows 上跑得更顺一点。如果你在折腾自然语言,或者做课题研究,那这个工具真挺实用的。

顺带一提,你要是对这类工具感兴趣,可以看看这些资源,挺搭的:

如果你是搞数据的、在做自然语言,或者就是想找个开箱即用的分词工具,那ICTCLAS2016这个老牌工具还是挺值得一试的,别错过了。