大数据的老牌经典《Hadoop 权威指南》出第 4 版修订升级版啦,内容还是一如既往地全。讲得挺细,从 HDFS 的块级存储、高容错机制,到 MapReduce 的并行计算流程,再到 YARN 的资源调度,基本把 Hadoop 的生态摸了个遍。
文件系统的设计思路挺有意思,比如 HDFS
里数据怎么做冗余、怎么恢复,书里都掰开揉碎讲了。再比如 Mapper
和 Reducer
怎么配合,Shuffle 阶段又干了什么,搞懂之后,自己写个批任务问题也不大。
HBase 和 Hive 也有单独篇幅,前者搞实时存储,后者帮你写 SQL
查数。想做实时 + 批混搭?可以试试 Spark 或者 Pig,书里也有,虽然不深,但作为入门还挺实用。
数据安全部分也别错过,讲了加密、访问控制这些比较偏的点,多人容易忽略。还有一点蛮实用,书里有不少实战案例,看完之后思路会更清晰,落地也更快。
如果你是想系统学 Hadoop 的,尤其是搞数据开发或者集群运维的,这本书还挺值得翻一翻的。顺手我也整理了几个相关的资源,下面这几个链接你可以点进去看看:
- Hadoop HDFS 分布式存储机制
- HDFS Comics Hadoop 分布式存储基础
- iServer 集成 Hadoop YARN 分布式操作指南
- Yarn 3.1.3 伪分布式部署配置
- 星环大数据平台 HDFS 分布式存储系统
- Hadoop 2.6.1 分布式存储系统源码
- SequoiaSQL - 分布式 MySQL 存储引擎
如果你刚好在研究 大数据平台搭建 或者 Hadoop 集群优化,这些资料还蛮对口的,别错过了~