Hive 的内部表老是有一堆小文件?你不是一个人。用 Java 撸个合并程序,其实没那么难。核心就是读 HDFS 上的小文件,一个个塞进SequenceFile里,搞成一个大文件,再让 Hive 识别新路径,清掉旧的,查询效率能快不少。这套方案蛮适合对 Hive 自动合并不放心、或者想精细控制合并节奏的你。要是用惯 Java 操作 HDFS,那这个思路你应该挺熟的,搭配FileSystemFSDataInputStream这些 API,用起来顺手还稳定。别忘了更新元数据,走一遍ALTER TABLE或者 Hive metastore API,不然 Hive 找不到新文件可不行。