Hive内部表小文件合并Java程序

Hive 的内部表老是有一堆小文件？你不是一个人。用 Java 撸个合并程序，其实没那么难。核心就是读 HDFS 上的小文件，一个个塞进SequenceFile里，搞成一个大文件，再让 Hive 识别新路径，清掉旧的，查询效率能快不少。这套方案蛮适合对 Hive 自动合并不放心、或者想精细控制合并节奏的你。要是用惯 Java 操作 HDFS，那这个思路你应该挺熟的，搭配FileSystem和FSDataInputStream这些 API，用起来顺手还稳定。别忘了更新元数据，走一遍ALTER TABLE或者 Hive metastore API，不然 Hive 找不到新文件可不行。