Spark RDD入门介绍

弹性分布式数据集的核心概念，挺适合刚上手 Spark 的你。RDD就是 Spark 里搞数据最常用的那套东西，能分区、能并行，支持内存缓存，还能自动容错。简单说，你写一堆转化操作，数据就在内存里转来转去，响应也快，效率也高，挺香的。

RDD的懒加载机制也蛮好玩，你定义完操作链不立马跑，等你执行collect()或者count()这类 action 时才真正开始算。这样一来，性能就能压榨得比较极致。嗯，缓存用得好，查询飞快不说，还能少跑不少无谓逻辑。

而且，出错了也不怕，RDD有血统信息，可以靠日志和依赖关系自动恢复，挺有安全感的。像日志、用户行为这类事儿，用RDD是老搭档了。如果你追求速度优先，又不怕多写点代码，那这个抽象还是蛮值得研究下的。

推荐几个资料你可以看看：

如果你是第一次接触 Spark，建议先别跳太深，搞懂 RDD 的基本操作和缓存机制就挺有收获了。哦对，map、filter、reduceByKey这些操作，多练练更上手。