Hadoop 的高可用架构挺实用的,适合你搞分布式大数据的场景。
HDFS 的 NameNode 双节点切换,还有 YARN 的 ResourceManager 主备机制,能有效避免服务挂掉就崩盘的情况,日常维护也省心不少。
YARN 把资源调度从任务执行里剥离出来,配合ApplicationMaster
做隔离,弹性还不错。MapReduce 的 HA 逻辑也是基于它来的,理解了 YARN 的机制,其他的就通了。
部署时别忘了配置HADOOP_HOME
和Path
,尤其多环境切换的时候,一不注意命令找不到就麻烦。集群监控建议加上Ganglia
或Nagios
,Hadoop 自己的监控也能看,但第三方图表更直观。
要玩 HA,ZooKeeper 是少不了的,像ResourceManager HA
、NameNode 切换
都得靠它做协调。文档里还提到了 MapReduce V2 的演进,也就是JobTracker
和TaskTracker
分拆,这块理解清楚,对排查执行慢挺有。
如果你正在部署稳定的 Hadoop 集群,强烈建议看看这份思维导图和文档,能省下不少踩坑时间。