Hive 的数据存储有许多值得注意的技术点,RCFile存储方式就是其中一个。在这种存储结构中,表格是被水平划分的,每个划分叫做行组,行组内部的列是独立存储的,这样做的好处是能够有效提高查询效率。RCFile的一个亮点是它采用了列维度的压缩方式,使用了懒解压技术,避免了不必要的解压操作,提升了性能。行组的大小可以灵活调整,,调整时需要在数据压缩和查询性能之间找到一个平衡。如果你正在做与数据存储相关的工作,这个技术方案值得一看。