hadoop-day01-day03笔记

###大数据与Hadoop概览####一、大数据的基本概念随着互联网技术的快速发展，日常生活和工作中产生的数据量迅速增加，形成了所谓的“大数据”。这些数据不仅数量巨大，而且种类繁多，包括结构化数据、半结构化数据以及非结构化数据。传统数据处理方法难以应对这种规模的数据，因此催生了一系列新的技术和工具来处理和分析大数据。 **大数据的特点**： 1. **Volume（容量）**：数据量巨大。 2. **Velocity（速度）**：数据产生速度快。 3. **Variety（多样性）**：数据类型多样。 4. **Value（价值）**：虽然数据量大，但其中包含的价值可能较低。 5. **Veracity（真实性）**：数据的真实性和准确性。 ####二、大数据的应用场景大数据技术已经在多个领域得到广泛应用，以下是一些典型例子： 1. **电商推荐系统**：通过对用户的浏览历史、购买记录等行为数据进行分析，构建推荐模型，从而向用户推荐更符合其兴趣的商品。 2. **精准广告推送系统**：通过收集和分析用户在互联网上的各种行为数据，形成用户画像，进而为广告主提供更精准的广告投放方案。 3. **金融风控**：银行和其他金融机构利用大数据分析技术进行风险评估和管理，如信用评分、欺诈检测等。 4. **医疗健康**：医疗机构通过分析病人的历史数据、基因信息等，实现个性化治疗方案的制定。 ####三、Hadoop的核心组件Hadoop是一个开源的大数据处理框架，它提供了高效的数据存储和计算能力，主要由以下几个核心组件构成： 1. **HDFS（Hadoop Distributed File System）**：用于分布式存储大量数据，将数据分块存储在不同的服务器上，提高了数据的可靠性和可访问性。 2. **MapReduce**：一种编程模型，用于处理和生成大规模数据集。它将复杂的任务分解为两个阶段：Map阶段和Reduce阶段，通过分布式的并行处理提高效率。 3. **YARN（Yet Another Resource Negotiator）**：资源管理和任务调度平台，使得Hadoop能够更好地支持多种类型的计算任务。 ####四、HDFS的工作原理HDFS（Hadoop Distributed File System）是Hadoop生态系统中的一个重要组成部分，它为用户提供了高容错性的文件存储服务，并能够提供高吞吐量的数据访问能力，适合部署在低成本的商用硬件上。 **HDFS的工作流程**： 1. **文件分割**：当用户向HDFS写入一个文件时，HDFS会将这个文件分成多个块，默认大小为128MB或64MB（取决于配置），并将其分布在不同的DataNode上。 2. **元数据管理**：每个文件的元数据，包括文件的块列表和每个块的位置信息，都由NameNode存储在内存中，并定期持久化到磁盘。 3. **数据冗余**：为了提高数据的可靠性和可用性，HDFS默认为每个块保存三个副本，通常一个副本位于本地机架内，另一个副本位于同一数据中心的不同机架上，第三个副本则位于不同的数据中心。 4. **数据读取**：当用户请求读取文件时，NameNode根据元数据信息确定文件块的位置，并引导客户端直接从DataNode读取数据。 ####五、HDFS集群搭建**HDFS集群的组成**： - **NameNode**：管理文件系统的命名空间，负责维护文件系统树以及文件块映射表。 - **DataNode**：存储实际的数据块，执行文件系统客户端或NameNode发起的数据块读写操作。 - **Secondary NameNode**：辅助NameNode，周期性地合并fsimage和editlog文件，减小NameNode启动时间。 **安装HDFS集群的步骤**： 1. **准备Linux服务器**：选择合适的虚拟机或者物理机作为集群节点。 2. **配置主机名和IP地址**：确保每台服务器都有唯一的主机名和IP地址，以便于后续的网络通信。 3. **远程连接**：使用CRT或其他SSH工具进行远程连接。 4. **配置基础软件环境**： - **关闭防火墙**：避免防火墙干扰集群间的通信。 - **安装JDK**：Hadoop及其相关组件均基于Java开发，因此需要安装JDK。 - **配置环境变量**：设置JAVA_HOME等必要的环境变量。 5. **主机名映射配置**：在每台服务器上配置/etc/hosts文件，以实现主机名与IP地址之间的映射。 6. **上传Hadoop安装包**：将Hadoop的安装包上传至集群的一台服务器。 7. **修改配置文件**：调整Hadoop配置文件，以适应集群的实际需求。以上内容涵盖了大数据的基本概念、应用场景、Hadoop的核心组件及其工作原理，以及如何搭建HDFS集群的基础步骤。这些知识对于理解大数据处理流程和技术栈至关重要。