大数据的老牌经典《Hadoop 权威指南》出第 4 版修订升级版啦,内容还是一如既往地全。讲得挺细,从 HDFS 的块级存储、高容错机制,到 MapReduce 的并行计算流程,再到 YARN 的资源调度,基本把 Hadoop 的生态摸了个遍。

文件系统的设计思路挺有意思,比如 HDFS 里数据怎么做冗余、怎么恢复,书里都掰开揉碎讲了。再比如 MapperReducer 怎么配合,Shuffle 阶段又干了什么,搞懂之后,自己写个批任务问题也不大。

HBaseHive 也有单独篇幅,前者搞实时存储,后者帮你写 SQL 查数。想做实时 + 批混搭?可以试试 Spark 或者 Pig,书里也有,虽然不深,但作为入门还挺实用。

数据安全部分也别错过,讲了加密、访问控制这些比较偏的点,多人容易忽略。还有一点蛮实用,书里有不少实战案例,看完之后思路会更清晰,落地也更快。

如果你是想系统学 Hadoop 的,尤其是搞数据开发或者集群运维的,这本书还挺值得翻一翻的。顺手我也整理了几个相关的资源,下面这几个链接你可以点进去看看:

如果你刚好在研究 大数据平台搭建 或者 Hadoop 集群优化,这些资料还蛮对口的,别错过了~