hadoop 的环境配置说起来不算复杂,但要搞明白各个组件怎么协同工作,还真得花点心思。HDFS、YARN、MapReduce是三大核心,搭起来之后才能跑得起来数据任务。
HDFS 的配置是基础,不通就啥也别谈了。你可以看看这篇《大数据环境中的 HDFS 配置详解》,讲得还蛮细,路径设置、备份机制都有。
YARN 负责资源调度,说白了就是让你的任务能跑得动。这篇《Yarn 及 Hadoop 优化》还不错,实操中常踩的坑也有提到。
MapReduce 的配置就相对灵活了,关键看你任务需求。需要改分区逻辑的,可以参考《MapReduce Partitioner 重写示例》,讲得蛮实在。
如果你用的是 Ubuntu 环境,这篇配置实践也挺对路子的。还有个权限和环境变量的细节文章,别小看,多新手卡在这一步出不来。
哦对了,要动源码的朋友,2.9.2 源码编译的文章建议也看看,少走弯路。
如果你是刚入门,建议从《Hadoop2.x 环境配置指南》开始看,架构讲得比较清楚,操作也跟得上。
配置完环境之后,多跑点小任务练手,啥问题都出来得快,也快,越用越熟。