Spark 项目里的空气质量数据资源,用的就是BeijingPM20101_20151231_1.csv
这个文件,挺经典的一个。北京 2010 到 2015 年的 PM2.5 数据,按小时排的,清洗过的数据也还算干净。拿来做Spark Streaming
、机器学习
、时间序列预测
啥的都挺顺手。
老实说,像这种格式规整的数据,拿来练手是再合适不过的了。你直接用pandas.read_csv
就能读,字段名清楚,时间戳也标准,基本不用怎么预,省了不少事。
我之前做Apache Spark
的流项目,就是靠这个数据来模拟实时推送。想搭建一个本地模拟的Kafka+Spark
环境,它合适。每小时一条记录,改改时间戳就能丢进 Kafka 里跑起来。
你要是刚接触空气质量,可以顺带看看几个相关的数据集:比如Spark Streaming 项目实战数据集,还有2014-2018 年全国空气质量数据,都挺全的。配合起来用效果更好。
如果你想练练 SQL 或者可视化,也可以把这份 CSV 丢进Superset
或者Metabase
试试看。字段比较友好,做图做表都比较顺。
嗯,,这个数据文件比较基础但实用,适合用来搭原型或者测试算法。如果你在折腾Spark
、PM2.5 预测
这块,不妨下载试试。