Hadoop 的大数据能力一直都挺强的,《Hadoop 权威指南 第四版》算是入门进阶都能用上的一本老牌参考书。内容系统,从 HDFS 架构到底层 MapReduce 执行流程都讲得比较透,配合一些动手例子,实践起来也不会太抽象。
HDFS 的存储机制讲得蛮清楚,尤其是副本策略、NameNode 和 DataNode 的职责划分。刚上手的时候,我就是靠着这部分理解了整个分布式存储是怎么回事。
MapReduce部分也不难,重点是要多练。像书里讲的重写Partitioner
,真的是分组调优的关键,不然任务分布不均可太拉跨了。你也可以搭配下面这个MapReduce 示例一起练练,挺实用的。
顺带一提,如果你对整个生态感兴趣,可以看看Ambari 集成 YARN的那篇,环境搭建起来之后再跑代码,会顺不少。
还有,像MapReduce 离线、HDFS 配置详解这些文章,跟书配合着看,理解会更深一些。你要是刚接触 Hadoop,1Hadoop 基础学习那篇也可以顺带翻翻。
如果你平时习惯看代码学东西,这本书也不会让你失望,代码片段挺多,思路也清晰。嗯,建议边读边敲,效果更好。