词频统计的练习素材,格式清爽,内容也挺实用的,拿来练手刚刚好。不管你是刚学Java
、Python
还是在搞Hadoop
、HDFS
那一套,拿这个素材跑一遍流程,顺手。文件结构简单明了,起来也不费劲,适合你写点小工具,测测性能啥的。
词频的词表文本,分段清晰,字符编码也没啥问题。你可以直接用BufferedReader
按行读取,也可以整合进MapReduce
任务里,数据量适中,既不压机器,也能测试出点效果。
顺便一提,相关的资料我也翻了一圈,有几篇还挺有意思的:比如莎士比亚文集的词频统计优化算法,讲了一些停用词
和词根化
的方法;还有HDFS Java API 实现文件词频统计,你想接点分布式的活,可以看下思路。
如果你也在练习数据的那一套,这份素材真的挺方便的,下载下来,配套写点小脚本跑跑看,能帮你理清词频统计的整个流程。