Fast Data Processing with Spark 2nd Edition分布式数据处理框架

分布式的大杀器就是 Spark 的 Spark。Fast Data Processing with Spark这本书讲得挺全，从搭集群到写分布式代码、从 Shell 交互调试到部署上线，全流程都覆盖了。嗯，而且 Java、Scala、Python 都支持，代码风格也挺清爽的，适合各种开发习惯的你。

内存计算的效率让人惊喜，不像 Hadoop 那种中间写磁盘，Spark 跑得快是真的快。比如你在一个上百 G 的数据集，用Spark RDD直接搞定统计、筛选，响应也快，代码也简单。

交互式开发挺方便的，书里有专门Spark Shell怎么用，你可以边写边试，像写脚本一样快速验证逻辑。还有Spark Streaming做实时，也讲得比较清楚。

对了，如果你想用 SQL 风格的语法查询数据，书里也提到了Hive + Shark这种组合，还能图数据，用的是GraphX（老版本叫Bagel）。不管你是在本地玩还是部署到 EC2，书里都有实操教程，照着配就行。

如果你正在玩大数据、想试试更轻量灵活的分布式计算方式，Spark 是个不错的起点。这本书就是那种看完能立马动手干的类型，推荐你试试。