Hadoop美国出生人口测试数据集

hadoop 测试的出生人口数据，算是我测试 MapReduce 性能时候用得比较多的一套。按年份拆分，每年一个yobXXXX.txt文件，从 1885 到 2016 都有，适合做点时间序列或者人口趋势可视化，格式也比较简单，CSV 文本，解析起来不麻烦。

数据蛮适合拿来跑 MapReduce 任务的，文件够多、体量适中，放在 HDFS 里分块效果挺直观。你要测 IO、测试Mapper/Reducer逻辑效率，这套数据拿来直接跑一跑就行，响应也快。

我自己平时还会配合Hive或者Pig来试试查询语句的优化，也试过用Spark做个小 demo，批量效率还不错。你甚至可以接个Tableau或者Grafana试试看可视化，美国出生率变化趋势一目了然。

测试的时候别忘了注意下yarn的资源调度状况，比如内存用多少、跑完用时多久，这些指标能帮你更精准地调优 Hadoop 集群。至于数据内容嘛，像是yob2016.txt、yob1885.txt这种都好理解，文件名就是年份，里面每行是人名、性别、数量。

如果你正在做大数据离线，或者刚好想拿点靠谱数据来做分布式计算练手，这套出生人口数据还挺不错的，轻量又实用。顺便附上几个相关资料，有空可以翻翻：