Apache Flume 2分布式日志采集框架

分布式系统里的日志采集，一直挺麻烦的对吧？Flume的插件化架构真是救星，数据从各种来源拉过来，顺畅地就能送进Hadoop。用起来感觉挺灵活，是配置文件那套，熟悉之后想改哪儿都方便。

Apache Flume的第二版，主要补充了不少实际案例，讲了怎么接入各种数据源，比如常见的日志文件、Kafka、甚至 HTTP 事件。内容不算啰嗦，重点都挺清楚，适合边看边动手试。

我自己用它做过一个小型的日志收集系统，日志从几台机器打包流到 HDFS，配置搞好后几乎不用管，稳定得。配合Hadoop做后续，简直天作之合。顺手推荐几篇相关文章，实战角度多，适合你拓展一下：

Apache Flume 与 Hadoop 分布式日志收集这篇讲得挺细，逻辑清楚；
Flume 日志收集实战里的配置示例可以直接参考；
还有这篇基于 Hadoop 集群的分布式日志研究，更偏系统架构，读完你会有不少新想法。

如果你刚好在搞日志系统、数据采集或者想优化现有的大数据流程，这本书和这些资源，真心值得看一看。