Hadoop权威指南大数据的存储与分析第4版修订版升级版

大数据的老牌经典《Hadoop 权威指南》出第 4 版修订升级版啦，内容还是一如既往地全。讲得挺细，从 HDFS 的块级存储、高容错机制，到 MapReduce 的并行计算流程，再到 YARN 的资源调度，基本把 Hadoop 的生态摸了个遍。

文件系统的设计思路挺有意思，比如 HDFS 里数据怎么做冗余、怎么恢复，书里都掰开揉碎讲了。再比如 Mapper 和 Reducer 怎么配合，Shuffle 阶段又干了什么，搞懂之后，自己写个批任务问题也不大。

HBase 和 Hive 也有单独篇幅，前者搞实时存储，后者帮你写 SQL 查数。想做实时 + 批混搭？可以试试 Spark 或者 Pig，书里也有，虽然不深，但作为入门还挺实用。

数据安全部分也别错过，讲了加密、访问控制这些比较偏的点，多人容易忽略。还有一点蛮实用，书里有不少实战案例，看完之后思路会更清晰，落地也更快。

如果你是想系统学 Hadoop 的，尤其是搞数据开发或者集群运维的，这本书还挺值得翻一翻的。顺手我也整理了几个相关的资源，下面这几个链接你可以点进去看看：

如果你刚好在研究 大数据平台搭建 或者 Hadoop 集群优化，这些资料还蛮对口的，别错过了～