Hadoop 2.7.2 的完整安装包,适合在 CentOS 上练手的那种,配置文件啥的都带了,省去你一顿百度的麻烦。嗯,里面的东西挺全,像HDFSMapReduceYARN这些核心组件都有。

分布式存储的 HDFS,其实就是把大文件切成块,丢到不同机器上,速度快,还不容易挂。你可以设定副本数,防止机器挂了数据丢了,挺稳的。

MapReduce的方式也比较直白,写个 WordCount 脚本就能跑起来了,统计个文本词频,适合用来测试集群是不是正常。逻辑也不复杂,一个 map 一个 reduce,熟悉一下思路就行。

还有YARN,算是资源调度大管家吧,容器分配、作业调度全靠它,尤其在多节点测试时,YARN 能让任务调得更灵活,资源利用率也能提高不少。

你要装的话,记得 Java 环境得先装好,把hadoop-2.7.2.zip解压到/opt/hadoop。配置文件那几个:core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xml,一步步来别急,照着注释改就行了。

格式化一下 HDFS,启动那些服务进程:NameNodeDataNodeResourceManagerNodeManager……都起来之后,你的 Hadoop 集群就能跑了。可以用命令行上传、下载数据,也能试试 WordCount 跑个样。

如果你对 Hadoop 生态还比较感兴趣,像HivePigHBase也能玩一玩,和 HDFS 配合起来做还挺带感的。

,这包内容比较全,适合用来本地模拟大数据。如果你想搞清楚 Hadoop 到底怎么回事,从这包入门不算错。