Spark 项目里的空气质量数据资源,用的就是BeijingPM20101_20151231_1.csv这个文件,挺经典的一个。北京 2010 到 2015 年的 PM2.5 数据,按小时排的,清洗过的数据也还算干净。拿来做Spark Streaming机器学习时间序列预测啥的都挺顺手。

老实说,像这种格式规整的数据,拿来练手是再合适不过的了。你直接用pandas.read_csv就能读,字段名清楚,时间戳也标准,基本不用怎么预,省了不少事。

我之前做Apache Spark的流项目,就是靠这个数据来模拟实时推送。想搭建一个本地模拟的Kafka+Spark环境,它合适。每小时一条记录,改改时间戳就能丢进 Kafka 里跑起来。

你要是刚接触空气质量,可以顺带看看几个相关的数据集:比如Spark Streaming 项目实战数据集,还有2014-2018 年全国空气质量数据,都挺全的。配合起来用效果更好。

如果你想练练 SQL 或者可视化,也可以把这份 CSV 丢进Superset或者Metabase试试看。字段比较友好,做图做表都比较顺。

嗯,,这个数据文件比较基础但实用,适合用来搭原型或者测试算法。如果你在折腾SparkPM2.5 预测这块,不妨下载试试。