Apache Hive 的 2.1.1 版本,算是比较稳定又好用的一版。HQL 语法和 SQL 挺像的,熟悉关系型数据库的你,上手会快。查询是跑在 Hadoop 集群上的,Hive 中间会把 SQL 转成 MapReduce 或 Tez 任务,执行效率还不错。

Hive Metastore是核心组件之一,记录了表结构、分区啥的,MySQL 做元数据库比较常见,配好之后,查询、建表都省心。

bin目录里是各种启动脚本,比如hive命令行,还有hiveserver2服务端,方便远程连接。你要是用 JDBC/ODBC 连 BI 工具数据,也没问题,Hive 支持得挺全。

想优化点性能?可以用分区和桶。分区按字段拆分表,查询时只扫对应目录;桶是把数据再分组,连接操作效率高多。场景大了挺有用。

另外 Hive 支持UDF自定义函数,做点特定的转换也灵活。再往深了玩,你可以配置成支持ACID 事务,适合做数据仓库那类场景。

嗯,安装起来也不麻烦。你只需要配置好hive-site.xml,调好 Hadoop、元数据库路径,跑一下bin/hive或者hiveserver2就能开整了。

如果你是用 BI 工具 Hive 里的数据,可以看看FineBI Hive 驱动;JDBC 连接推荐从Hive JDBC 连接驱动搞起,配置文档也挺全。

apache-hive-2.1.1-bin对前端开发者想试试大数据查询还是蛮友好的。你写 SQL、我来跑分布式任务,配合得挺默契的。