Flume日志采集与离线调度配置（第12天）

Flume 的日志采集配置，真的是用起来挺顺手的。TaildirSource负责盯着你指定的目录，一有新日志立马捕捉。搭配HDFS Sink，数据就能稳稳落在 HDFS 上，整个流程又快又稳。中间靠memory channel当桥梁，响应也快，配置也简单。你要是做过日志同步，肯定知道传统方案多麻烦，而这套配置清爽得，基本拷一份改路径就能上。
另外如果你得跑定时任务或者多个步骤的，Oozie也别忽略了。像那种先导入再的场景，用 XML 把 workflow 串起来就行，而且支持失败重试，省了不少人工干预。
还有Sqoop，算是 RDBMS 和 HDFS 之间的搬运工吧。无论是 MySQL 到 HDFS，还是反过来，命令一敲，几分钟搞定。适合做数据同步和周期性抽取。
如果你也在搭建离线数据流，这几个工具组合起来，还是蛮靠谱的。你可以参考这些文章扩展下思路，配置出自己的方案。