Cloudera 的 Hive JDBC 驱动里的 2.5.1040 版本,算是我用下来比较稳的了,适合跑在 Cloudera 集群里的 Java 应用。你只要配好 JDBC URL,连上去就能直接跑 HQL 查询,响应也挺快的。
整个包里东西不多,但都是关键件。像HiveJDBC41.jar,基本就是主力驱动,Java 通过它来连 Hive。还有hive_metastore.jar和hive_service.jar,一个管元数据,一个是服务端实现,协同工作挺顺的。
TCLIServiceClient.jar和libthrift-0.9.0.jar用的是 Thrift 协议,说白了就是让 Hive 能跟不同语言的客户端打交道。你要是用 Python、Scala 接 Hive 的,也得靠它。
zookeeper-3.4.6.jar也在里头,主要负责 Hive 集群的高可用,跟slf4j-api、log4j这些日志库一起配合,用起来还挺安心的。跑大数据任务的时候,有日志才好排错,对吧?
实际用的时候记得路径别乱放,尤其是你把它接进像DbVisualizer这样的数据库工具,路径配置对不上就连不上。你也可以看下 DbVisualizer Hive JDBC 驱动包 的用法,里面讲得还蛮细的。
如果你在 Cloudera 的环境下搞大数据,想通过 Java 去拉 Hive 的数据,这套驱动包真挺省事的。想简单连上去查数据?拿来就能用。