入门 Spark 的大数据,真心推荐《Spark 快速大数据》。上来不整花活,直接带你用最实在的方式搞懂 Spark。没啥复杂的底层代码,重点讲怎么用——比如怎么跑任务、怎么数据、怎么优化性能。

比较难得的是,它对核心概念也没一笔带过,像RDD执行引擎这些,讲得还挺清楚。读下来你不仅会用,还知道背后咋回事。对刚接触 Spark 的你来说,少走不少弯路。

有几个不错的相关文章也可以一块看看,像是《Spark 分布式计算框架》,能帮你更系统地理解分布式计算;还有这个 2.0.2 版本的 Spark 发行包,部署测试的时候挺实用;再比如Apache Spark 内存计算那篇,讲了不少内存调度的细节,开发和调优时用得上。

如果你是刚准备上手 Spark,又不想被文档劝退,那这本书可以放心入。看完之后再结合项目多练练,理解会更扎实。