Hadoop测试数据集

刚入门大数据，碰到个挺实用的资源。是我师兄当时带我时整理的一份Hadoop 测试数据，格式清晰、数据量合适，蛮适合用来练手。分享出来，你也能少走点弯路。

有些数据是CSV格式，有些是JSON，可以直接喂进 Hadoop 或者 Spark 跑，省得自己东拼西凑。尤其适合测试MapReduce流程、HDFS 导入，还有数据清洗这些常规流程。

如果你也在搭 Hadoop 环境，或者想试试Hive跑查询，那这份数据真的还不错。操作起来也不麻烦，响应也快。跑个聚合、排序啥的，效果挺直观的。

顺手也整理了几篇相关的资源文章，像是Hadoop 集群搭建测试数据、Spark 销售、还有个GitHub 的大表数据库，都挺实用，建议一块看看。

如果你现在刚开始玩大数据，建议先把这类小数据集跑通了再考虑性能优化。真要跑大数据，磁盘、内存、网络哪个瓶颈都得踩一遍，早点练手有好处。