Flume日志收集与MapReduce模式

Flume 的日志收集能力，配上 MapReduce 的模式，真是蛮高效的一套组合。Flume 日志收集与 MapReduce 模式.pdf这份资料挺实用，讲得也清楚，尤其适合你在做 Hadoop 体系的日志项目时参考。

Flume的管道机制，用起来还挺灵活的。不光能从 Web、APP 收集数据，配上Channel + Sink的结构，传输也稳。你要是玩过Kafka或者Logstash，用起来会觉得顺手。

里面还讲了怎么结合MapReduce做日志归档和批。比如你日志量比较大，想做个用户行为，那就可以用 MapReduce 做后端统计，数据直接从 Flume 过来，逻辑上也清晰。

文档里的例子还挺贴地气，比如如何设置avro source、file channel，再加上一个HDFS sink，直接就能跑起来了。配置简单，部署也方便，新人也能跟着做。

如果你对分布式日志收集感兴趣，旁边这些文章也别错过，像Flume 日志收集实战这种实操案例，学起来比较快，Spark + Kafka + Flume这篇也蛮有意思，适合搞实时流的你。

建议你在搭建前，先把几个组件的兼容版本查一下，有时候版本不对，会让你怀疑人生，嗯……是 Flume 和 Hadoop 之间的依赖那块。