HMM 的中文分词效果其实还挺靠谱的,尤其是在新闻类文本里跑一圈,高频词提取挺有参考价值的。如果你也想自己训练个模型,那训练语料可不能随便整。trainCorpus.txt
这个文件就挺合适,内容结构清晰,直接拿去喂模型也不用再清洗一遍。
在 Jupyter 上跑Python
代码操作起来也方便,训练过程可视化,调试起来也直观。你要是手里有自己的新闻数据,也可以试着用这套逻辑跑一遍,效果还蛮不错的。配合hmmlearn
或者自己实现个 HMM 模型都行。
对了,如果你对中文分词这个方向感兴趣,下面这些资源也可以看看,有些词库和工具挺成熟的,用来比对效果或者优化结果都方便:
- 中文分词词库合集,做词典分词挺合适
- jieba 分词器与关键词提取,用法简单,适合快速上手
- 优化过的中文分词工具 pscws,能助词保留的问题
- elasticsearch 中文分词器 6.7.0,搜索相关项目别错过
如果你是想做点数据或者文本挖掘的实验,HMM 分词+高频词提取就是个不错的起点,训练好之后词频一跑,结果一目了然。别忘了,trainCorpus.txt
用得好,后面一连串流程都能顺。
如果你刚好要做自己的中文分词模型,不妨从这个语料开始试试,嗯,效果还真不赖。