Apache Hive 2.1.1数据仓库工具

Apache Hive 的 2.1.1 版本，算是比较稳定又好用的一版。HQL 语法和 SQL 挺像的，熟悉关系型数据库的你，上手会快。查询是跑在 Hadoop 集群上的，Hive 中间会把 SQL 转成 MapReduce 或 Tez 任务，执行效率还不错。

Hive Metastore是核心组件之一，记录了表结构、分区啥的，MySQL 做元数据库比较常见，配好之后，查询、建表都省心。

bin目录里是各种启动脚本，比如hive命令行，还有hiveserver2服务端，方便远程连接。你要是用 JDBC/ODBC 连 BI 工具数据，也没问题，Hive 支持得挺全。

想优化点性能？可以用分区和桶。分区按字段拆分表，查询时只扫对应目录；桶是把数据再分组，连接操作效率高多。场景大了挺有用。

另外 Hive 支持UDF自定义函数，做点特定的转换也灵活。再往深了玩，你可以配置成支持ACID 事务，适合做数据仓库那类场景。

嗯，安装起来也不麻烦。你只需要配置好hive-site.xml，调好 Hadoop、元数据库路径，跑一下bin/hive或者hiveserver2就能开整了。

如果你是用 BI 工具 Hive 里的数据，可以看看FineBI Hive 驱动；JDBC 连接推荐从Hive JDBC 连接驱动搞起，配置文档也挺全。

，apache-hive-2.1.1-bin对前端开发者想试试大数据查询还是蛮友好的。你写 SQL、我来跑分布式任务，配合得挺默契的。