Hadoop 安装部署的流程,其实还挺讲究的。尤其第一次接触大数据的小伙伴,搞清楚前提条件和配置逻辑关键。像是JDK 环境、SSH 免密登录这些准备工作,都是部署前的基本功,搞不定这些,后面会挺折腾的。
Linux 环境的搭配是标配,建议直接用 CentOS 或者 Ubuntu,靠谱省事。JDK 的话,用rpm装完记得设好JAVA_HOME,不面启动 Hadoop 的时候会报各种错。时间同步也别忘了,集群里时间不同步,各种奇奇怪怪的错误真的能把人整崩。
SSH 免密码登录的配置说麻烦也不麻烦,关键是你得会用ssh-keygen和ssh-copy-id。别嫌麻烦,搞好了你操作集群就像操作本机一样顺手。就是安装包解压、配置环境变量,这些都是套路,别漏了HADOOP_HOME就行。
配置文件那块最容易让人头大,core-site.xml、hdfs-site.xml、yarn-site.xml这些名字记不住没事,但作用要清楚。比如设置fs.defaultFS、副本数、ResourceManager 的地址这些,都是你集群能不能跑起来的关键。
你要是想让它高可用,那就得折腾HA配置,搞两个NameNode一个主一个备,再配上ZooKeeper,故障切换的事也就交给它们了。是麻烦点,但值,毕竟生产环境挂一次成本可不低。
你想先练手,也可以上个伪分布式版本,全部服务跑一台机器上,方便调试。等你觉得差不多了,再扩展到完全分布式,搭个三四节点跑个小集群,做实验、测性能都挺好。
哦对了,下面这些链接也蛮实用的,像是 HBase 集群、Docker 部署脚本,甚至免密登录技巧都有,值得收藏:
- Hadoop 及 HBase 集群安装部署手册
- Docker 中部署 Hadoop 集群脚本
- 自动化部署 JDK 脚本安装指南
- 飓风无密码获取
- MySQL 免密码登录技巧
- MongoDB 认证与分片集群配置
- Ambari 赋能 Hadoop 集群:从部署到实践
如果你正准备搭建 Hadoop 环境,强烈建议先看看这份 PDF,跟着流程一步步来,稳妥还不容易踩坑。