分布式计算的大杀器——Hadoop 的权威指南,第四版英文原版,真心推荐。Tom White 写的,O'Reilly 出的,靠谱。讲得挺系统的,从基础的HDFSMapReduce到后面的YARNHiveHBaseSpark,都有提。

部署 Hadoop 环境时总是踩坑?这书从安装、配置到集群管理都写得清楚。比如NameNodeDataNode怎么配,副本机制咋玩,容错是怎么做的,一步一步来,不绕弯。

MapReduce代码没思路?里面用的例子都挺实用,MapperReducer的职责讲得也明白。你写 Java 的,看完能上手;你用 Python,也能靠Hadoop Streaming跑起来。

而且它不光讲老东西,还带你认识新的,比如YARN,还有怎么和SparkStorm结合搞实时流。Sqoop导数据、Flume收日志、Oozie管任务,配合起来用,效率真高。

你要是做大数据开发,或者刚准备入门 Hadoop,这本书真的值得翻一翻。想搞清楚为什么现在这么多人用 HadoopPB 级数据?这本书就是答案。

另外推荐你顺手看看这几篇文章:Hadoop 分布式计算平台概述Hadoop HDFS 分布式存储机制,还有HDFS Comics 基础篇,看完会更有感觉。

如果你打算深入 Hadoop 生态,早点读完这本,对你后面接触HivePigMahout啥的,挺大的。