YARN 的配置项太多太细?你不是一个人。yarn-utils.py这个小工具就挺贴心的,能根据你机器的 CPU 核数、内存、磁盘数量,自动算出一套还不错的 YARN 优化参数,适合忙起来连文档都懒得翻的你。

Python 写的脚本,基本就是装好 Python 就能直接跑。命令也简单,比如:

python yarn-utils.py -c 24 -m 256 -d 4

意思是 24 核 CPU,每个容器分 256MB 内存,4 块数据盘。脚本会根据这些参数给出一份推荐配置,像是 yarn.nodemanager.resource.memory-mbyarn.scheduler.maximum-allocation-mb 这些关键项都帮你算好了。

挺适合刚接手集群还不太熟的人,或者你想快速估个初始配置,不用手撸 Excel 公式啥的。配置完跑个任务看看表现,再慢慢调。

有兴趣的话可以顺手读读这些文章,YARN 的资源调度逻辑、参数细节都讲得比较清楚:

如果你手上有一批新机器,或者准备重配 YARN 集群,可以先用这个工具跑一遍试试。