MapReduce 代码练手的好素材,SamllMediumLargeDataset.rar算是我最近用过比较顺手的一个数据集了。它准备了三组不同规模的数据,Small、Medium、Large,从轻量到大数据,模拟得还挺真实,挺适合做性能对比测试的。

WordCount 的案例应该都熟,Map 阶段拆词、Reduce 阶段统计频次。这个数据集就围绕这个流程设计的,结构简单清晰,上手快,运行也稳定。如果你是刚接触大数据或者在搞MapReduce调优,那它挺值得一试的。

是你在做一些比如Hadoop的词频统计实验,或者在搞FlinkMapReduce的性能对比,这个数据集就好用。小规模的加载快,大的可以直接拿来做分布式测试,也不用再去找复杂的文本源。

应用场景也比较广:语言舆情研究关键词提取,都能用。还有个小建议,数据多了之后记得加Combiner优化下,不然Reducer那边压力会有点大。

如果你最近刚好在整MapReduce项目、写论文、做教学演示,SamllMediumLargeDataset.rar这个数据集下载下来玩玩看,还挺省心的。