深入理解大数据处理与编程实践Part 2

523 页的大部头，内容够厚实，讲的大数据编程也挺接地气的。里面从 Hadoop、Spark 到 PySpark、MongoDB，算是把主流的大数据工具都撸了一遍，例子也比较贴近实战。看完之后，不说你成专家，起码打个样板系统是没啥问题的。

523 页的大部头，内容够厚实，讲的大数据编程也挺接地气的。里面从 Hadoop、Spark 到 PySpark、MongoDB，算是把主流的大数据工具都撸了一遍，例子也比较贴近实战。看完之后，不说你成专家，起码打个样板系统是没啥问题的。

RDD操作讲得蛮细的，像map、reduceByKey这些基本操作都有案例，顺手还能练练Spark SQL。对了，Hive 那一块也挺全，从建表到联表，语法都过了一遍，适合想入门的小伙伴。

推荐你配合这几个资源一块看：大数据与编程实践全面解析这篇是对第一部分的补充；Hive 编程指南适合想在数据仓库上继续卷的；PySpark 框架是偏实战的补丁。

如果你平时就在做 ETL 或者搞数据清洗，那这本书还挺对路子。尤其你要是刚转大数据方向，想系统学点东西，又不想太啃文档，嗯，这本挺合适。中文的，看起来不累。