兼容 Hadoop 2.5apache-flume-1.6.0-bin.zip 是个还挺实用的工具,专门用来搞日志采集的。Flume 这东西是 Cloudera 家出的,支持分布式,容错也比较强,部署起来也不算麻烦,基本配置好 source、channel、sink 就能跑。

Flume 的核心思路就是把数据源的日志给拉过来,中间用个 channel 缓一手,再推给你指定的目标,比如 HDFS、Kafka 这些。你可以用 exec source 从 shell 拿日志,也能用 avro 协议做远程采集,灵活得。

如果你平时就在玩 Hadoop,那这个版本跟 2.5 的兼容性还不错,稳定性也挺高。建议你搭配 HDFS 或 Kafka 一起用,能把日志链条打通。

配置的时候注意一点,channel 用 file 的话,落盘速度还行,但别忘了定期清理;用 memory 就快,但挂了就没数据了,得权衡下。

哦对了,如果你还不熟,可以先看看Flume:日志采集与利器这篇文章,写得还挺清楚的。其他像 Flume 与 Hadoop 的结合也值得一读,能帮你搞明白分布式日志收集怎么搞。

如果你日志量大、系统分布广,那这个压缩包解压直接能用,挺省事的。