Impala 的官方文档,内容挺全,讲得也比较细,适合你平时查资料或者搞性能调优时用。
Impala 的实时查询能力还蛮厉害的,支持直接用标准 SQL查Hadoop里的数据,响应也快,查询写起来跟用普通数据库差不多,门槛挺低。
Impala 的MPP 架构,查询的时候能并行,性能比老的MapReduce快不少,适合你需要快速出结果的时候,像做报表、搞数据就挺方便。
和HDFS、HBase这些老朋友集成得也比较顺,支持的数据格式也多,像Parquet
、Avro
、ORC
都能直接用,数据搬来搬去挺麻烦的,用 Impala 可以省不少事。
嗯,查询的时候 Impala 还挺省事,数据基本都在内存里,低延迟,也支持跟Hive共享元数据,这样你 Hive 建的表,Impala 直接用,表都不用重新建,挺爽的。
Impala 支持ODBC/JDBC,你用BI 工具接也方便,做仪表盘、跑报表都挺适合。
官方文档里也讲了不少部署和运维的细节,像集群搭建、资源管理、监控都写得比较清楚,平时出问题也好排查。
如果你搞实时、做业务智能,或者就是想查点大数据,Impala 官方文档还蛮值得一读,顺手可以看看这篇 Impala:适用于 Hadoop 的现代开源 SQL 引擎,讲得也挺细。