伪分布式的 Hadoop 集群配置,适合入门摸索分布式的你。配置难度不高,踩坑也少,搭完基本就能跑点实际任务了,挺适合学习和测试用的。像搭在一台机器上、模拟多节点的环境,资源要求也不高,挺省心的。

Hadoop 的 CDH 版本用得还蛮多,稳定性也不错。想快速上手的话可以看看Hadoop CDH 伪分布式集群搭建教程,教程清晰,基本跟着走就能搭出来,适合没啥经验的小伙伴。

如果你更关注安装流程而不是哪个版本,那伪分布式安装指南也挺实用,偏通用型的思路,对理解整体流程比较有。是一些常见的core-site.xml配置,讲得挺细。

涉及到 Zookeeper 的话,也可以参考Zookeeper 伪分布式安装脚本,脚本自动化程度还可以,能省不少重复操作。ZK 在多大数据框架里都要用到,早点熟悉也有好处。

配置文件这块容易踩坑,建议你直接对着Hadoop 伪分布式配置文件里列出来的模板写,照葫芦画瓢就对了。像hdfs-site.xmlmapred-site.xml这种,不熟练还真容易漏项。

如果你用的是 Windows 系统,也别担心,虽然主流开发一般跑 Linux,但Windows 下 Kafka 伪分布式集群这篇也可以参考,适合本地调试和快速实验。

另外,Hadoop 3.2.1 伪分布安装指南对新版本支持比较好,YARN 的配置也有提到,适合想用新版特性的你。

如果你第一次接触分布式系统,建议先试一试伪分布式,搭个基础环境跑几条 MapReduce 看看,理解了再扩展到多机分布也不迟。