Hadoop+Hive 集群的搭建,其实没你想的那么复杂,关键是流程得清楚,坑要避开。VM 上的Ubuntu
系统配上Hadoop 3.3.0
和Hive
,搭起来还是蛮顺的。用的是伪分布式,调试方便,跑测试任务也够用。
Ubuntu 系统的干净环境挺适合做实验的,搭 Hadoop 前,记得把SSH
和JDK
这些依赖搞定,不面启动 Hadoop 老是出错。你可以直接配置~/.bashrc
,写好环境变量,像HADOOP_HOME
、JAVA_HOME
这些,少一步都不行。
Hadoop 的配置文件比较关键,像core-site.xml
、hdfs-site.xml
、mapred-site.xml
和yarn-site.xml
这几个,路径和端口一搞错,NameNode 就跑不起来。建议每改完一个配置都start-dfs.sh
试一下,别等到一起调。
Hive 的安装步骤也挺直观的,就是依赖多一点,要连上MySQL
当元数据库。不想装 MySQL 的也可以用Derby
,虽然不太适合多用户场景。初始化元数据库时,执行schematool -dbType mysql -initSchema
就搞定,别忘了提前建好数据库。
如果你对虚拟机环境不熟,可以看看Hadoop 3.3.0 虚拟机集群环境搭建这篇文章,写得蛮清楚的,从装系统到搭环境都有。
搭完之后,你就可以用 Hive 跑SQL
查 HDFS 的数据了,开发、测试都方便。如果你也想在本地模拟大数据环境,这套搭建流程还挺值得一试的。