SmallMediumLargeDataset MapReduce性能测试数据集

MapReduce 代码练手的好素材，SamllMediumLargeDataset.rar算是我最近用过比较顺手的一个数据集了。它准备了三组不同规模的数据，Small、Medium、Large，从轻量到大数据，模拟得还挺真实，挺适合做性能对比测试的。

WordCount 的案例应该都熟，Map 阶段拆词、Reduce 阶段统计频次。这个数据集就围绕这个流程设计的，结构简单清晰，上手快，运行也稳定。如果你是刚接触大数据或者在搞MapReduce调优，那它挺值得一试的。

是你在做一些比如Hadoop的词频统计实验，或者在搞Flink和MapReduce的性能对比，这个数据集就好用。小规模的加载快，大的可以直接拿来做分布式测试，也不用再去找复杂的文本源。

应用场景也比较广：语言、舆情研究、关键词提取，都能用。还有个小建议，数据多了之后记得加Combiner优化下，不然Reducer那边压力会有点大。

如果你最近刚好在整MapReduce项目、写论文、做教学演示，SamllMediumLargeDataset.rar这个数据集下载下来玩玩看，还挺省心的。