VM+CentOS+hadoop2.7搭建hadoop完全分布式集群

###基于VM+CentOS+hadoop2.7搭建Hadoop完全分布式集群的知识点解析####一、概述本文旨在详细介绍如何使用VMware Workstation（简称VM）结合CentOS 6.5操作系统来搭建Hadoop 2.7的完全分布式集群。此文档是根据作者的实际经验总结而成，主要面向那些希望深入了解并掌握Hadoop集群部署的技术人员或开发者。 ####二、准备工作**1.安装VMware Workstation 12.x** - **下载地址**：[链接](http://pan.baidu.com/s/1c2KA3gW)密码：3r67 - **安装步骤**：按照安装向导提示进行操作即可。 **2.安装CentOS 6.5** - **准备虚拟机**：为了简化配置过程，建议先安装一台虚拟机作为模板，然后通过克隆功能复制出多台虚拟机。 - **虚拟机网络配置**：使用VMware Workstation提供的NAT模式，这样可以避免与物理网络发生冲突，并确保虚拟机之间可以互相通信。 - **修改IP地址**：确保每台虚拟机都有唯一的IP地址，例如： - IP地址范围：192.168.48.129 ~ 192.168.48.132 -网关地址：192.168.48.1 -修改方法：通过命令`sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0`进行配置，将DHCP模式改为静态IP模式，并设置正确的IP地址、子网掩码、网关等信息。 **3.配置主机名和IP映射** - **编辑`/etc/hosts`文件**：添加主机名与IP地址的映射关系，例如： ```bash 192.168.48.129 master1 192.168.48.131 slave1 192.168.48.132 slave2 ``` - **修改`/etc/sysconfig/network`文件**：将`HOSTNAME`项设置为主机名，如`master1`。 **4.关闭防火墙和Selinux** - **防火墙**：执行`chkconfig --level 35 iptables off`来永久关闭。 - **Selinux**：编辑`/etc/selinux/config`文件，将`SELINUX`行修改为`SELINUX=disabled`。 ####三、Hadoop集群的安装与配置**1.安装Java环境** - **解压Java包**：将Java安装包`jdk-7u51-linux-x64.tar`解压至`/opt`目录下，重命名为`java`。 - **配置环境变量**：编辑`/etc/profile`文件，添加Java环境变量： ```bash export JAVA_HOME=/opt/java export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$PATH:$JAVA_HOME/bin ``` **2.配置SSH免密码登录** - **生成SSH密钥对**：在每台机器上执行`ssh-keygen -t rsa`，默认接受所有提示。 - **分发公钥**：将公钥文件`id_rsa.pub`复制到其他节点的`authorized_keys`文件中，以便实现免密码SSH登录。 **3.配置Hadoop环境** - **安装Hadoop**：将Hadoop安装包解压到指定目录，如`/opt/hadoop-2.7.0`。 - **配置Hadoop环境变量**：同样编辑`/etc/profile`文件，添加Hadoop环境变量。 - **配置Hadoop核心文件**：主要包括`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`等，这些文件用于定义Hadoop集群的核心参数。 - **格式化NameNode**：在NameNode节点上执行`hadoop namenode -format`命令进行格式化。 - **启动Hadoop服务**：分别启动NameNode、SecondaryNameNode、DataNodes、ResourceManager、NodeManagers等服务。 ####四、扩展阅读- **Hadoop伪分布部署**：适用于本地测试环境。 - **Zookeeper、Hive、HBase的分布式部署**：提供高可用性和数据仓库支持。 - **Spark、Sqoop、Mahout的分布式部署**：用于提高数据处理性能和数据分析能力。 - **Hadoop高可用部署**：确保Hadoop集群的稳定运行和服务不中断。通过以上步骤，您可以成功地搭建一个完整的Hadoop 2.7分布式集群，并为进一步的数据分析工作奠定基础。