Hadoop+Hive 集群的搭建,其实没你想的那么复杂,关键是流程得清楚,坑要避开。VM 上的Ubuntu系统配上Hadoop 3.3.0Hive,搭起来还是蛮顺的。用的是伪分布式,调试方便,跑测试任务也够用。

Ubuntu 系统的干净环境挺适合做实验的,搭 Hadoop 前,记得把SSHJDK这些依赖搞定,不面启动 Hadoop 老是出错。你可以直接配置~/.bashrc,写好环境变量,像HADOOP_HOMEJAVA_HOME这些,少一步都不行。

Hadoop 的配置文件比较关键,像core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml这几个,路径和端口一搞错,NameNode 就跑不起来。建议每改完一个配置都start-dfs.sh试一下,别等到一起调。

Hive 的安装步骤也挺直观的,就是依赖多一点,要连上MySQL当元数据库。不想装 MySQL 的也可以用Derby,虽然不太适合多用户场景。初始化元数据库时,执行schematool -dbType mysql -initSchema就搞定,别忘了提前建好数据库。

如果你对虚拟机环境不熟,可以看看Hadoop 3.3.0 虚拟机集群环境搭建这篇文章,写得蛮清楚的,从装系统到搭环境都有。

搭完之后,你就可以用 Hive 跑SQL查 HDFS 的数据了,开发、测试都方便。如果你也想在本地模拟大数据环境,这套搭建流程还挺值得一试的。