Hadoop 3权威指南

Hadoop 的权威书，还真得是这本第三版指南。内容讲得挺细，HDFS 和 MapReduce 那块，讲得接地气，连我这种习惯看文档的人都觉得顺溜。哦，书里还把 YARN、Hive、HBase 这些高频项目捋了一遍，搞大数据开发的你，翻一翻肯定有收获。

分布式存储的 HDFS，存 PB 级数据都不带怕的。MapReduce怎么拆任务、怎么并行，这里讲得挺明白，代码也贴心，不会让你看得一头雾水。嗯，像map()和reduce()怎么写、啥时候用，都有案例。

YARN算是老朋友了，负责资源调度那块。如果你搞集群搭建，Ambari 结合 YARN 一起用效果还不错，推荐你看下这个集成 YARN 搭建教程。还能顺带摸清配置套路。

HBase那块也没落下，用来做 NoSQL 存储，再配上Hive和Pig，SQL 味儿就有了，非程序员数据也能上手。嗯，写查询语句跟传统 SQL 差不多，挺友好。

另外，书里还提了Sqoop和Flume，一个搞数据导入，一个搞流式采集，配合着做数据同步挺方便。像从 MySQL 导数据到 HDFS，sqoop import一句命令就行了，效率还蛮高。

配置部分也比较贴心，集群安装、故障排查这些都讲了。不少操作直接给了示例，比如core-site.xml怎么调、hdfs dfsadmin怎么用，跟着做也不容易出错。

如果你刚入门，可以先看这份 Hadoop 基础入门，理解原理后再读书效率更高。老手的话，直接翻配置和案例部分，干货不少，调优那章值得多看几遍。

总结一句话，这本书不止是理论，更多是经验传授。想学 Hadoop、或者搞大数据平台部署的你，拿来当工具书再合适不过。