Hadoop HA架构指南

Hadoop 的高可用架构挺实用的，适合你搞分布式大数据的场景。

HDFS 的 NameNode 双节点切换，还有 YARN 的 ResourceManager 主备机制，能有效避免服务挂掉就崩盘的情况，日常维护也省心不少。

YARN 把资源调度从任务执行里剥离出来，配合ApplicationMaster做隔离，弹性还不错。MapReduce 的 HA 逻辑也是基于它来的，理解了 YARN 的机制，其他的就通了。

部署时别忘了配置HADOOP_HOME和Path，尤其多环境切换的时候，一不注意命令找不到就麻烦。集群监控建议加上Ganglia或Nagios，Hadoop 自己的监控也能看，但第三方图表更直观。

要玩 HA，ZooKeeper 是少不了的，像ResourceManager HA、NameNode 切换都得靠它做协调。文档里还提到了 MapReduce V2 的演进，也就是JobTracker和TaskTracker分拆，这块理解清楚，对排查执行慢挺有。

如果你正在部署稳定的 Hadoop 集群，强烈建议看看这份思维导图和文档，能省下不少踩坑时间。