美国 ncdc 官网的气象数据,1943 到 1944 年的,格式干净,字段清晰。拿来练练大数据、爬虫、数据都挺合适的。网上多数据集不是太小就是太乱,这一批我自己爬下来的,结构比较统一,起来不费劲。
用 Python 爬的,嗯,每次最多只能传 220 个文件,上传的时候稍微麻烦点,但数据量还行,做一些入门到中级的数据项目绰绰有余。
CSV 格式的文件,一打开就是按列排好,字段像date
、temperature
这些都有,挺适合你用 Pandas 或者 MATLAB 做可视化。像温度走势、极端天气统计,这类题材拿它当素材挺不错。
哦对,如果你也想自己动手爬,可以参考下我整理的几篇文章,像Python 爬虫秘籍、Python 爬虫源码这些都比较实用,配着看效果更好。
另外想做点酷炫的展示?推荐看看气象数据可视化模板,图表做出来挺专业的。或者你搞 Java 的,也能试试豆瓣数据爬虫的方式,改改也能用来抓气象数据。
如果你是刚上手大数据,这个数据集比较好啃,不复杂,能锻炼流程。老手也能拿它做模型测试或者算法练习。,数据清洗起来不头大,做项目也有的玩。