Hadoop 生态圈的流式计算补丁——Storm和S4挺值得聊聊的。MapReduce虽然经典,但一遇到实时数据就有点吃力——数据一开始就固定死了,中途不能变。而Storm
就比较灵活,数据一边流、一边算,淘宝、mediaV 这些大厂都用它。要搞实时,Storm 是个不错的起点。
Spark的思路也挺有意思,说白了就是把 MapReduce 搬到内存里,速度立马就上来了。再加上个 SQL 壳子,就是当年的Shark。不过那会儿还是实验阶段,现在你可以直接用 Spark SQL,成熟多了。
交互式查询的话,Impala和Drill也蛮火的,思路来自 Google 的 Dremel。Impala
上线一年就推 1.0 版本,需求是真的刚。适合你想快速查点小数据,响应也快。只不过扩展性、容错这些还在路上,用之前心里得有点数。
想系统了解这些工具的,可以翻下下面几个链接,我自己也收藏了:
- Hadoop Storm HBase Spark 学习资源
- MapReduce 与 Hadoop 技术总结
- 2017 年云计算与大数据教程
- MapReduce 大数据离线
- Impala:适用于 Hadoop 的现代开源 SQL 引擎
如果你刚开始接触这些工具,建议从Spark
和Storm
先上手,社区活跃,资料也比较多。