Hadoop 3.1.1编译配置指南

Hadoop-3.1.1 的编译过程其实还挺有意思的，尤其是你对分布式系统感兴趣的话。这版本做了不少实用升级，像是Erasure Coding，能大幅节省磁盘空间，替代老掉牙的三副本机制，省资源还更智能。

YARN 也被优化了一把，Capacity Scheduler调度更快，Preemption 机制能自动给高优先级任务腾位置，整体调度逻辑更灵活。跑大作业的时候，资源利用率高了不少。

你要是玩过 MapReduce，应该能感受到 3.1.1 在Shuffle阶段的改进，数据传输更省带宽，作业速度也快了一截。还有个亮点就是动态资源分配，对资源波动大的任务友好。

安全这一块也没落下，支持Kerberos认证，权限控制也细了不少。部署时你可以顺便结合Ambari来管理集群，界面清爽，用起来省心。

编译前记得先准备好JDK、Maven这些基础环境，版本对不上的话容易踩坑。依赖库建议提前拉全，尤其在国内网络环境下，不然卡半天你都不知道在等啥。

有几个不错的文章你可以搭配着看，比如HDFS Federation 配置、YARN 优化这些，内容挺实用的，适合手动调集群时用来参考。

如果你打算自己从源码编译 Hadoop-3.1.1，不妨把pom.xml配仔细点，多看日志，多测试，少走弯路。搞定之后，自己搭个高可用集群玩玩，成就感真的有。