Hadoop-3.1.1 的编译过程其实还挺有意思的,尤其是你对分布式系统感兴趣的话。这版本做了不少实用升级,像是Erasure Coding,能大幅节省磁盘空间,替代老掉牙的三副本机制,省资源还更智能。

YARN 也被优化了一把,Capacity Scheduler调度更快,Preemption 机制能自动给高优先级任务腾位置,整体调度逻辑更灵活。跑大作业的时候,资源利用率高了不少。

你要是玩过 MapReduce,应该能感受到 3.1.1 在Shuffle阶段的改进,数据传输更省带宽,作业速度也快了一截。还有个亮点就是动态资源分配,对资源波动大的任务友好。

安全这一块也没落下,支持Kerberos认证,权限控制也细了不少。部署时你可以顺便结合Ambari来管理集群,界面清爽,用起来省心。

编译前记得先准备好JDK、Maven这些基础环境,版本对不上的话容易踩坑。依赖库建议提前拉全,尤其在国内网络环境下,不然卡半天你都不知道在等啥。

有几个不错的文章你可以搭配着看,比如HDFS Federation 配置YARN 优化这些,内容挺实用的,适合手动调集群时用来参考。

如果你打算自己从源码编译 Hadoop-3.1.1,不妨把pom.xml配仔细点,多看日志,多测试,少走弯路。搞定之后,自己搭个高可用集群玩玩,成就感真的有。