###单节点Hadoop环境配置知识点详解#### Hadoop概述及发展历程- **创始人与背景**:Hadoop是由Doug Cutting创建的。Cutting毕业于斯坦福大学,同时也是Lucene和Nutch项目的创始人。2004年,他在开发Nutch搜索引擎时遇到了海量非结构化数据的存储问题。 - **起源与发展**:为了应对海量数据的存储需求,Cutting参考了Google发布的两篇论文——《Google File System》和《MapReduce》。这两篇论文分别阐述了Google用于处理大规模数据的文件系统GFS和并行计算框架MapReduce的设计理念和技术细节。受此启发,Cutting于2006年设计实现了Nutch的HDFS(Hadoop Distributed File System)。最初,Hadoop作为Nutch的一个子项目出现,旨在解决Nutch的数据存储问题。随着Hadoop的发展,它在Nutch 0.8版本后成为了一个独立项目。后来,Cutting带着Hadoop加入雅虎,并带领一个百人团队不断完善Hadoop。最终,雅虎将Hadoop贡献给了Apache基金会,使之成为了Apache的顶级项目之一。 ####大数据的特点与影响- **特点**:大数据通常指的是TB级别乃至PB级别的非结构化数据,这类数据每天都在快速增长。 - **影响**:在大数据出现之前,数据分析高度依赖于算法的精准性。然而,随着数据量的增长,数据本身就能揭示有价值的洞察,降低了对复杂算法的需求。此外,大数据使得分析者可以从更宏观的角度理解数据,而无需深入探讨具体的因果关系。 #### Hadoop的搭建模式Hadoop支持三种不同的搭建模式: - **单机模式**:仅支持MapReduce,不支持HDFS。适用于MapReduce任务的测试和调试。 - **伪分布模式**:同时支持MapReduce和HDFS。通过多个线程模拟多台真实机器的工作流程,从而模拟真实的分布式环境。 - **完全分布式**:使用多台物理或虚拟机搭建集群,实现真正的分布式计算环境。 #### Hadoop伪分布式安装搭建步骤1. **下载Hadoop**:访问官方发布页面`http://hadoop.apache.org/releases.html`下载所需版本。 2. **关闭防火墙**: -使用`service iptables stop`暂时关闭防火墙。 -使用`chkconfig iptables off`永久关闭防火墙(重启后仍保持关闭状态)。 3. **配置主机名**: -查看当前主机名:`hostname` -修改主机名为tedu1(临时修改,重启后恢复):`hostname tedu1` -永久修改主机名(需重启后生效):编辑`/etc/sysconfig/network`中的`HOSTNAME`属性值为tedu1。 4. **配置hosts文件**: -编辑`/etc/hosts`文件,添加IP地址与主机名之间的映射。例如,添加一行`192.168.1.101 tedu1`。 5. **配置免密码登录**: -生成SSH密钥对:`ssh-keygen`(连续按回车键接受默认选项)。 -将公钥复制到目标主机:`ssh-copy-id root@tedu1`。 6. **安装和配置JDK**: -解压JDK安装包:`tar -zxvf jdk-8u65-linux-x64.tar.gz -C /home/work/app` -配置Java环境变量:编辑`/etc/profile`文件,添加以下内容: ```bash export JAVA_HOME=/home/work/app/jdk1.8.0_65/ export PATH=$JAVA_HOME/bin:$PATH ```通过以上步骤,用户可以在单节点环境下完成Hadoop伪分布式环境的基本配置。这一过程不仅涵盖了Hadoop的核心组件安装和配置,还涉及到了Linux系统的基础操作,为初学者提供了从零开始构建Hadoop环境的全面指南。