词频统计练习素材

词频统计的练习素材，格式清爽，内容也挺实用的，拿来练手刚刚好。不管你是刚学Java、Python还是在搞Hadoop、HDFS那一套，拿这个素材跑一遍流程，顺手。文件结构简单明了，起来也不费劲，适合你写点小工具，测测性能啥的。

词频的词表文本，分段清晰，字符编码也没啥问题。你可以直接用BufferedReader按行读取，也可以整合进MapReduce任务里，数据量适中，既不压机器，也能测试出点效果。

顺便一提，相关的资料我也翻了一圈，有几篇还挺有意思的：比如莎士比亚文集的词频统计优化算法，讲了一些停用词和词根化的方法；还有HDFS Java API 实现文件词频统计，你想接点分布式的活，可以看下思路。

如果你也在练习数据的那一套，这份素材真的挺方便的，下载下来，配套写点小脚本跑跑看，能帮你理清词频统计的整个流程。