Hive 和 HBase 的组合方案蛮实用的,适合搞大数据又想兼顾实时查询的场景。这个压缩包里准备好了Apache Hive 1.2.2
和HBase 1.2.6
,环境配置、集成方法、数据导入导出都讲得比较清楚,整体流程顺,你照着做基本能跑起来。
Hive 的 SQL 友好性加上 HBase 的高并发性能,组合起来还挺香的。比如你有离线跑的报表,又有实时看的监控数据,两个系统一整合,省心多了。
安装那块,配置HIVE_HOME
、HBASE_HOME
这些环境变量是必不可少的,别漏了。尤其metastore
部分,建议用 MySQL,稳定些。
集成的时候主要是 Hive 的HBase Storage Handler
来桥接,记得配好zookeeper.quorum
,否则连不上。外部表的映射关系也要看清楚,列族和字段别搞混。
数据导入导出操作还是用 Hive 那套命令,比如LOAD DATA
、INSERT INTO
,不过要确保 Hive 表和 HBase 表结构匹配,不然执行不了。
优化上建议关注 Region 的划分,Hive 做下分区挺重要的,不然查大表会卡得飞起。HBase 的Filter
、二级索引配合 Hive 的JOIN
也能玩出不少花样。
应用场景嘛,比如做个广告推荐系统,Hive 用户行为,HBase 实时响应推荐逻辑,刚刚好。
不过坑也不少。比如数据一致性问题,Hive 不是事务型的,得靠你业务逻辑兜底。还有就是延迟,一些策略和缓存要加好,不然效率拉垮。
如果你刚好在搞大数据项目,尤其是那种同时有批和实时需求的,用这套配置练手挺不错的。