Hive 的元数据落在 MySQL 里的安装方式,蛮适合新手上手的。文档里的步骤挺细,跟着做基本没啥坑。尤其是你想在远程搞个元数据存储,又不想折腾太多,这套方案还挺稳。
Hive+MySQL 的组合挺常见,用 MySQL 做元数据仓库,效率还不错。配置方面文档里讲得清楚,从 Hadoop 环境搭建到 Hive 指向远程数据库,每一步都带截图,照着来就行。
讲真,如果你之前没搭过完整的 Hadoop 集群,这份文档可以当做第一套练手的教材。命令不复杂,响应也快。配套的MySQL 元数据部署指南也可以一起看,理解会更透。
另外哦,关于元数据表结构、Hive 数据结构,甚至是Eclipse 远程调 Hive的事儿,文档后面也顺带贴了不少资源链接,有空可以点进去看看,拓展一下思路。
注意一点,MySQL 版本别选太新,兼容性不太友好,5.7 稳定性还行。还有就是 Hive 和 MySQL 连接那块,hive-site.xml
里的 JDBC 路径别写错,路径错了 Hive 就起不来。
如果你正准备在本地搞个完整的大数据测试环境,这篇文档可以当工具书用,有问题基本都能找到答案。