Hadoop 3.3.0+Hive集群搭建指南

Hadoop+Hive 集群的搭建，其实没你想的那么复杂，关键是流程得清楚，坑要避开。VM 上的Ubuntu系统配上Hadoop 3.3.0和Hive，搭起来还是蛮顺的。用的是伪分布式，调试方便，跑测试任务也够用。

Ubuntu 系统的干净环境挺适合做实验的，搭 Hadoop 前，记得把SSH和JDK这些依赖搞定，不面启动 Hadoop 老是出错。你可以直接配置~/.bashrc，写好环境变量，像HADOOP_HOME、JAVA_HOME这些，少一步都不行。

Hadoop 的配置文件比较关键，像core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml这几个，路径和端口一搞错，NameNode 就跑不起来。建议每改完一个配置都start-dfs.sh试一下，别等到一起调。

Hive 的安装步骤也挺直观的，就是依赖多一点，要连上MySQL当元数据库。不想装 MySQL 的也可以用Derby，虽然不太适合多用户场景。初始化元数据库时，执行schematool -dbType mysql -initSchema就搞定，别忘了提前建好数据库。

如果你对虚拟机环境不熟，可以看看Hadoop 3.3.0 虚拟机集群环境搭建这篇文章，写得蛮清楚的，从装系统到搭环境都有。

搭完之后，你就可以用 Hive 跑SQL查 HDFS 的数据了，开发、测试都方便。如果你也想在本地模拟大数据环境，这套搭建流程还挺值得一试的。