Apache Hive 的 2.1.1 版本,算是比较稳定又好用的一版。HQL 语法和 SQL 挺像的,熟悉关系型数据库的你,上手会快。查询是跑在 Hadoop 集群上的,Hive 中间会把 SQL 转成 MapReduce 或 Tez 任务,执行效率还不错。
Hive Metastore是核心组件之一,记录了表结构、分区啥的,MySQL 做元数据库比较常见,配好之后,查询、建表都省心。
bin目录里是各种启动脚本,比如hive
命令行,还有hiveserver2
服务端,方便远程连接。你要是用 JDBC/ODBC 连 BI 工具数据,也没问题,Hive 支持得挺全。
想优化点性能?可以用分区和桶。分区按字段拆分表,查询时只扫对应目录;桶是把数据再分组,连接操作效率高多。场景大了挺有用。
另外 Hive 支持UDF自定义函数,做点特定的转换也灵活。再往深了玩,你可以配置成支持ACID 事务,适合做数据仓库那类场景。
嗯,安装起来也不麻烦。你只需要配置好hive-site.xml
,调好 Hadoop、元数据库路径,跑一下bin/hive
或者hiveserver2
就能开整了。
如果你是用 BI 工具 Hive 里的数据,可以看看FineBI Hive 驱动;JDBC 连接推荐从Hive JDBC 连接驱动搞起,配置文档也挺全。
,apache-hive-2.1.1-bin对前端开发者想试试大数据查询还是蛮友好的。你写 SQL、我来跑分布式任务,配合得挺默契的。