Hadoop 的 2.5.2 版本压缩包,挺适合刚入门或想快速搭环境的你用来玩玩大数据了。它里面的组件基本都配好了,HDFS、YARN、MapReduce这些都有,命令行工具也全,像hadoop
、hdfs
啥的直接就能跑。
HDFS 的 RAID 功能还挺实用,做备份和容错更靠谱,NameNode的内存管理也做了优化,哪怕单机测试也能感受到轻盈一些。再说 YARN,这版支持资源分配更细了,想跑点流任务,YARN 基本能 Hold 住。
启动 MapReduce 的作业速度也有改进,不会像早期版本那样等半天。而且mapred-site.xml
里可以配置任务槽位,集群资源用得更灵活。要搭集群?etc/hadoop
目录下的配置文件都在,改改网络 IP、内存啥的就行。
工具也配套得不错,像share/hadoop/mapreduce
目录下的WordCount
例子,拿来练手再合适不过了。日志监控也到位,ResourceManager和NodeManager的 Web UI 看得清清楚楚。
哦对,Kerberos 认证也支持,如果你要搞个内网安全环境,它也能搞定。想跑起来?解压到~
目录,配置下环境变量,启动start-dfs.sh
和start-yarn.sh
,基本就能用了。
如果你刚好在用 Linux,又想搭个靠谱的 Hadoop 环境,不妨拿这个包试试,省去一堆折腾时间。