Flume 的日志采集配置,真的是用起来挺顺手的。TaildirSource负责盯着你指定的目录,一有新日志立马捕捉。搭配HDFS Sink,数据就能稳稳落在 HDFS 上,整个流程又快又稳。中间靠memory channel当桥梁,响应也快,配置也简单。你要是做过日志同步,肯定知道传统方案多麻烦,而这套配置清爽得,基本拷一份改路径就能上。
另外如果你得跑定时任务或者多个步骤的,Oozie也别忽略了。像那种先导入再的场景,用 XML 把 workflow 串起来就行,而且支持失败重试,省了不少人工干预。
还有Sqoop,算是 RDBMS 和 HDFS 之间的搬运工吧。无论是 MySQL 到 HDFS,还是反过来,命令一敲,几分钟搞定。适合做数据同步和周期性抽取。
如果你也在搭建离线数据流,这几个工具组合起来,还是蛮靠谱的。你可以参考这些文章扩展下思路,配置出自己的方案。