Hadoop 的大数据框架真不是盖的,《Hadoop 权威指南》第三版算是入门和进阶的“宝典”了。作者 Tom White 可是老江湖,讲得深入浅出,还蛮贴近实战。你要是刚接触 Hadoop,里面关于HDFS、MapReduce和YARN的挺清晰的,拿来参考合适。
早期搞分布式计算,总离不开 Google 的那几篇经典论文。这书里也聊到了 Hadoop 怎么从 GFS 和 MapReduce 借鉴过来,还说了Hadoop 2.x时期的重要变化,比如YARN的引入,资源调度更灵活,任务类型也不局限于 MapReduce 了,扩展性好太多。
顺带一提,Hadoop 生态其实挺大的,书里还穿插了像Hive、Pig、HBase这些工具的内容。你要是做、开发或者维护相关系统,这些部分别跳过,看完绝对省不少踩坑时间。
再实在点,书里还有安装部署、集群配置和一些小坑的避雷建议,对一线开发者来说蛮实用。是配置HDFS、调优MapReduce那块,讲得比较细,手把手级别了。
哦对,如果你想动手试试,也可以看看下面这些示例项目,像MapReduce 分区器重写或HDFS 配置详解这种,配套起来学习效果更好。
如果你是初学者,这书内容够全,适合慢慢啃;如果已经有点经验,也可以跳着看重点章节,查资料也方便。放书架上常备没错~