Hadoop 的进化史,Hadoop 1.x 到 2.x 的变化挺大,尤其是资源管理这一块。以前是单点 JobTracker,说挂就挂。Hadoop 2.x 引入了YARN,资源调度更灵活,扩展性也提升了不少,适合大规模任务了。

老版的Hadoop 1.x架构相对简单,MapReduce绑死在框架里,资源管理和任务调度全靠JobTracker一肩扛,压力大,容易成瓶颈。而 2.x 一上来就拆分架构,YARN接手资源分配,NodeManager也更独立,挺适合多种计算框架混用,比如搭配 Spark。

你如果还在用 1.x 跑任务,嗯,是时候考虑升级了。2.x 不仅更稳定,还支持更多应用场景,比如流式计算、图计算啥的。而且社区支持也都在往 2.x 靠拢,新资源、新插件基本都围着它转。

推荐几个比较实用的资源:深入解析 Hadoop 2.x 版本及其与 Hadoop 1.x 的区别,讲得蛮清楚。Hadoop2.x 环境配置指南适合上手动手。还有Apache Hadoop 2.x 安装入门详解,比较适合刚入门的同学。

如果你想自己配环境,记得先看下Hadoop 2.x 安装包与配置指南,少走点弯路。哦对了,Eclipse 插件也有,Hadoop 2.x Eclipse 插件用起来还不错,适合习惯 IDE 的开发者。