TinyXML中文指南单词频次统计与TF-IDF应用

算法与数据结构 29

6.46MB 2025-06-29

#TF-IDF # 中文分词 # 文本挖掘 # Elasticsearch # jieba # IK分词器 # 数据预处理 # 垃圾分类

单词频次统计的流程操作符用起来还挺直观，图 12.5 里你可以直接加上分词器，点运行，等个几秒钟，输出就出来了。在图 12.6 的 WordList 视图里，每个词出现了几次，垃圾信息和非垃圾里的分布一清二楚。如果你在参数设置那边把 keep text 勾上了，还能看到每个词的 TF-IDF 值，图 12.7 里展示得也挺清晰，文本内容结构方便。