HBase 到 Elasticsearch 的数据同步,用jdk timerquartz搞定全量、增量这些事,蛮省心的。几个 demo 都挺实用,比如HBase2ESFullDemo搞全量同步,HBase2ESScrollTimestampDemo专门增量场景,还有个适配hbase1.xhbase2.x的简化版也挺方便。你要是想加个过滤条件,那就用HBase2ESFullDemoWithFilter,配置下条件就能跑。要玩得更细,QuartzHBase2ESImportTask支持 quartz 定时,调度灵活性更高。

同步效率还不错,适合数据量不算小、更新频率又不算太高的场景。比如日志归档、用户行为、IoT 设备状态同步这些。

另外它也不是闭门造车,相关的 ETL、Canal、Flume、Kafka 之类的方案也都可以参考一下,适合对比着看,看你更熟哪一套。