Hadoop 的 MapReduce 框架一直挺核心的,尤其是做大数据的时候。这篇《Hadoop 技术内幕_MR》写得比较浅显易懂,尤其适合刚入门的朋友,读起来不会头大。嗯,作者把 MapReduce 的运行机制、架构设计讲得还挺清楚,代码例子也贴地气,没什么花里胡哨的套路,实用性强。
MapReduce的任务分发和资源调度,其实就像工厂流水线,一个接一个干活。这篇文章讲得挺形象,什么Mapper
、Reducer
的生命周期、数据流动过程都理得清清楚楚。还有一些实际调优建议,比如怎么减少shuffle
开销,怎么配置内存参数,蛮有参考价值。
要是你用 IDE 开发MapReduce
程序,还可以看看这个插件集成包,能省不少事。还有几篇相关文章也可以一起读,比如《MapReduce 与 Hadoop 技术总结》,对比起来看,理解会更透。
如果你刚开始接触 Hadoop,又想搞清楚MapReduce到底在干啥,这份资料就挺合适的。别忘了,理解框架逻辑比一味堆代码更重要,后面调优和扩展才不至于懵。