Beijing PM2.5 2010-2015空气质量数据

Spark 项目里的空气质量数据资源，用的就是BeijingPM20101_20151231_1.csv这个文件，挺经典的一个。北京 2010 到 2015 年的 PM2.5 数据，按小时排的，清洗过的数据也还算干净。拿来做Spark Streaming、机器学习、时间序列预测啥的都挺顺手。

老实说，像这种格式规整的数据，拿来练手是再合适不过的了。你直接用pandas.read_csv就能读，字段名清楚，时间戳也标准，基本不用怎么预，省了不少事。

我之前做Apache Spark的流项目，就是靠这个数据来模拟实时推送。想搭建一个本地模拟的Kafka+Spark环境，它合适。每小时一条记录，改改时间戳就能丢进 Kafka 里跑起来。

你要是刚接触空气质量，可以顺带看看几个相关的数据集：比如Spark Streaming 项目实战数据集，还有2014-2018 年全国空气质量数据，都挺全的。配合起来用效果更好。

如果你想练练 SQL 或者可视化，也可以把这份 CSV 丢进Superset或者Metabase试试看。字段比较友好，做图做表都比较顺。

嗯，，这个数据文件比较基础但实用，适合用来搭原型或者测试算法。如果你在折腾Spark、PM2.5 预测这块，不妨下载试试。