523 页的大部头,内容够厚实,讲的大数据编程也挺接地气的。里面从 Hadoop、Spark 到 PySpark、MongoDB,算是把主流的大数据工具都撸了一遍,例子也比较贴近实战。看完之后,不说你成专家,起码打个样板系统是没啥问题的。

523 页的大部头,内容够厚实,讲的大数据编程也挺接地气的。里面从 HadoopSparkPySparkMongoDB,算是把主流的大数据工具都撸了一遍,例子也比较贴近实战。看完之后,不说你成专家,起码打个样板系统是没啥问题的。

RDD操作讲得蛮细的,像mapreduceByKey这些基本操作都有案例,顺手还能练练Spark SQL。对了,Hive 那一块也挺全,从建表到联表,语法都过了一遍,适合想入门的小伙伴。

推荐你配合这几个资源一块看:大数据与编程实践全面解析这篇是对第一部分的补充;Hive 编程指南适合想在数据仓库上继续卷的;PySpark 框架是偏实战的补丁。

如果你平时就在做 ETL 或者搞数据清洗,那这本书还挺对路子。尤其你要是刚转大数据方向,想系统学点东西,又不想太啃文档,嗯,这本挺合适。中文的,看起来不累。