分布式计算的老江湖——Hadoop,用得溜的人都知道这本《Hadoop 权威指南》第二版有多香。书的内容比较全面,不光讲了怎么搭建和用,还讲了它背后的原理,讲得还挺接地气,尤其对刚接触大数据的朋友友好。

HDFS 的读写流程MapReduce 的编程套路这些都讲得细,像你写个日志程序,一看就懂。书里还提了不少常见坑,比如 NameNode 挂了怎么办,数据怎么备份这些,嗯,实战味浓。

还有HiveHBase这些生态组件也都带了一遍,顺手还补了下YARN 资源调度,你要是对 Hadoop 2.x 开始用的 YARN 不熟,这部分看了就比较清楚了。顺带提一句,书后面还有点讲SparkStorm的内容,虽然不是主角,但也算开了个好头。

实用的部分我觉得是代码示例和操作演练,不是只讲概念那种。你可以跟着练,像是执行 HDFS 命令、跑个 MapReduce 任务啥的,一步一步来,学得比较扎实。还有一些商业案例,看看人家怎么把 Hadoop 用在生产里的,蛮有意思。

如果你是刚入门大数据的前端/后端开发,或者想跳槽到数据方向,这书挺适合先啃一遍的。哦对了,想拓展的话可以看看Hadoop 分布式计算平台概述,或者HDFS 分布式存储机制,跟这本书搭着看,效果会更好。