分布式系统里的日志采集,一直挺麻烦的对吧?Flume的插件化架构真是救星,数据从各种来源拉过来,顺畅地就能送进Hadoop。用起来感觉挺灵活,是配置文件那套,熟悉之后想改哪儿都方便。

Apache Flume的第二版,主要补充了不少实际案例,讲了怎么接入各种数据源,比如常见的日志文件、Kafka、甚至 HTTP 事件。内容不算啰嗦,重点都挺清楚,适合边看边动手试。

我自己用它做过一个小型的日志收集系统,日志从几台机器打包流到 HDFS,配置搞好后几乎不用管,稳定得。配合Hadoop做后续,简直天作之合。顺手推荐几篇相关文章,实战角度多,适合你拓展一下:

Apache Flume 与 Hadoop 分布式日志收集这篇讲得挺细,逻辑清楚;
Flume 日志收集实战里的配置示例可以直接参考;
还有这篇基于 Hadoop 集群的分布式日志研究,更偏系统架构,读完你会有不少新想法。

如果你刚好在搞日志系统数据采集或者想优化现有的大数据流程,这本书和这些资源,真心值得看一看。