hadoop 测试的出生人口数据,算是我测试 MapReduce 性能时候用得比较多的一套。按年份拆分,每年一个yobXXXX.txt文件,从 1885 到 2016 都有,适合做点时间序列或者人口趋势可视化,格式也比较简单,CSV 文本,解析起来不麻烦。

数据蛮适合拿来跑 MapReduce 任务的,文件够多、体量适中,放在 HDFS 里分块效果挺直观。你要测 IO、测试Mapper/Reducer逻辑效率,这套数据拿来直接跑一跑就行,响应也快。

我自己平时还会配合Hive或者Pig来试试查询语句的优化,也试过用Spark做个小 demo,批量效率还不错。你甚至可以接个Tableau或者Grafana试试看可视化,美国出生率变化趋势一目了然。

测试的时候别忘了注意下yarn的资源调度状况,比如内存用多少、跑完用时多久,这些指标能帮你更精准地调优 Hadoop 集群。至于数据内容嘛,像是yob2016.txtyob1885.txt这种都好理解,文件名就是年份,里面每行是人名、性别、数量。

如果你正在做大数据离线,或者刚好想拿点靠谱数据来做分布式计算练手,这套出生人口数据还挺不错的,轻量又实用。顺便附上几个相关资料,有空可以翻翻: