NYC-flights14 的数据表,R 语言做数据时的老朋友了,尤其配合 data.table 简直就是加速利器。字段清晰,格式干净,数据量也合适,练手写查询或者调代码都挺合适。

data.table的优势在哪?一句话总结:又快又省事。比如要查某天从 JFK 出发的所有航班,几行代码就能搞定,响应也快,代码也清爽。

我平时用它来测试聚合性能、写点小的可视化 demo,或者配合 ggplot2 做飞行时长分布图,效果都不错。如果你正好在学 R 语言 的数据部分,这个数据集真的合适。

哦对了,它的数据结构还挺适合拿来练 多表连接分组聚合,比如航班信息和天气、机场、航空公司三张表搭着玩,锻炼思维。

如果你还没接触过 data.table,推荐你先看看这篇Optimizing Multi-Table Queries with Category Data File》,里面有不少关于高效查询的实用技巧。

数据在哪下?直接搜 NYC-flights14 R data.table 就行,GitHub 上也有不少镜像资源。

如果你正打算搞点飞行数据的项目,可以从这套数据开始,熟悉下 R 里的表操作逻辑,快就能上手。