一、基础环境配置1、三台服务2、设置主机名3、主机名通信4、SSH免密登录5、同步时间6、环境清理二、集群环境搭建1、集群配置概览2、修改配置3、集群服务配置4、格式化NameNode 5、启动HDFS 6、启动YARN 7、Web端界面### Hadoop集群模式环境搭建及部署手册####一、基础环境配置##### 1、三台服务为了搭建一个完整的Hadoop集群,首先需要准备三台CentOS 7服务器,分别为`hop01`、`hop02`和`hop03`,IP地址分别为`192.168.37.133`、`192.168.37.134`和`192.168.37.136`。这些服务器可以通过克隆现有的伪分布式的环境来快速获得。 ##### 2、设置主机名每台服务器需要设置唯一的主机名,以便于管理和识别。例如: - `hop01`:`hostnamectl set-hostname hop01` - `hop02`:`hostnamectl set-hostname hop02` - `hop03`:`hostnamectl set-hostname hop03`设置完成后,需要重启服务器使更改生效,命令为:`reboot -f`。 ##### 3、主机名通信为了实现各服务器间的相互识别和通信,需要在每台服务器的`/etc/hosts`文件中添加其他两台服务器的信息,格式为:`IP地址主机名`。例如: -在`hop01`上添加: ``` 192.168.37.134 hop02 192.168.37.136 hop03 ``` -在`hop02`上添加: ``` 192.168.37.133 hop01 192.168.37.136 hop03 ``` -在`hop03`上添加: ``` 192.168.37.133 hop01 192.168.37.134 hop02 ``` ##### 4、SSH免密登录配置SSH免密登录对于集群的管理非常重要。具体步骤如下: 1.在`hop01`上生成公钥私钥对:`ssh-keygen -t rsa` 2.将公钥复制到其他两台服务器:`ssh-copy-id hop02`和`ssh-copy-id hop03` 3.在`hop02`和`hop03`上重复上述过程。 4.测试免密登录是否成功:`ssh hop02`和`ssh hop03` ##### 5、同步时间时间同步是集群中非常重要的一个环节,可以使用NTP协议来实现。首先在`hop01`上安装并配置NTP服务: -安装:`yum install ntpdate ntp -y` -修改配置文件`/etc/ntp.conf`,允许本地网络内的主机访问: ``` restrict 192.168.0.0 mask 255.0 nomodify notrap server 127.0.0.1 fudge 127.0.0.1 stratum 10 ``` -启动NTP服务:`service ntpd start` -设置开机启动:`chkconfig ntpd on`接着在`hop02`和`hop03`上进行配置: -安装NTP客户端:`yum install ntpdate -y` -修改配置文件`/etc/ntp.conf`,指定从`hop01`同步时间: ``` server 192.168.37.133 ``` -编写定时任务,每10分钟同步一次时间:`crontab -e`,添加行`*/10 * * /usr/sbin/ntpdate hop01` ##### 6、环境清理为了确保集群环境的一致性,需要清除原有的Hadoop数据和日志文件夹。可以在每台服务器上执行以下命令: - `rm -rf /data/hadoop-2.7.0/data/*` - `rm -rf /data/hadoop-2.7.0/logs/*` ####二、集群环境搭建##### 1、集群配置概览- **hop01**:DataNode + NameNode - **hop02**:DataNode + ResourceManager + NodeManager - **hop03**:DataNode + SecondaryNameNode + NodeManager ##### 2、修改配置接下来需要根据上述配置修改Hadoop的相关配置文件。 **core-site.xml** -设置HDFS的默认地址,例如在`hop01`上配置: ```xml fs.defaultFS hdfs://hop01:9000 ``` -类似地,在`hop02`和`hop03`上也需配置相应的`fs.defaultFS`值。 **hdfs-site.xml** -修改副本数量为3,以及SecondaryNameNode的服务地址: ```xml dfs.replication 3 dfs.namenode.secondary.http-address hop03:50090 ``` -以上配置同样需要在`hop01`、`hop02`和`hop03`上完成。 **mapred-site.xml** -需要修改YARN相关的配置项,如ResourceManager的地址等。 **yarn-site.xml** -配置NodeManager的监听地址等信息。 #### 3、集群服务配置在配置文件修改完成后,接下来需要进行集群服务的具体配置。 ##### 4、格式化NameNode在`hop01`上格式化NameNode: - `hdfs namenode -format` ##### 5、启动HDFS -分别在`hop01`、`hop02`和`hop03`上启动HDFS服务: - `sbin/start-dfs.sh` ##### 6、启动YARN -在`hop02`上启动YARN服务: - `sbin/start-yarn.sh` #### 7、Web端界面完成以上步骤后,可以在浏览器中通过`http://hop01:50070`访问HDFS的Web界面,通过`http://hop02:8088`访问YARN的Web界面,以监控集群的状态和服务运行情况。通过以上步骤,我们可以搭建一个完整的Hadoop集群,实现分布式存储和计算的功能。