Flume 的日志收集能力,配上 MapReduce 的模式,真是蛮高效的一套组合。Flume 日志收集与 MapReduce 模式.pdf这份资料挺实用,讲得也清楚,尤其适合你在做 Hadoop 体系的日志项目时参考。

Flume的管道机制,用起来还挺灵活的。不光能从 Web、APP 收集数据,配上Channel + Sink的结构,传输也稳。你要是玩过Kafka或者Logstash,用起来会觉得顺手。

里面还讲了怎么结合MapReduce做日志归档和批。比如你日志量比较大,想做个用户行为,那就可以用 MapReduce 做后端统计,数据直接从 Flume 过来,逻辑上也清晰。

文档里的例子还挺贴地气,比如如何设置avro sourcefile channel,再加上一个HDFS sink,直接就能跑起来了。配置简单,部署也方便,新人也能跟着做。

如果你对分布式日志收集感兴趣,旁边这些文章也别错过,像Flume 日志收集实战这种实操案例,学起来比较快,Spark + Kafka + Flume这篇也蛮有意思,适合搞实时流的你。

建议你在搭建前,先把几个组件的兼容版本查一下,有时候版本不对,会让你怀疑人生,嗯……是 Flume 和 Hadoop 之间的依赖那块。