Kafka、Flink、Storm、Apex、Spark流式计算框架调研报告

流式数据搞久了，谁还没纠结过该选哪个框架？Kafka、Flink、Storm、Apex、Spark Streaming这五个系统，风格不一样，用起来也各有门道。最近翻了份调研报告，整理得还挺细，适合刚上手或者要选型的你看看。

Kafka 的消息机制说实话，还是比较经典的。高吞吐、低延迟，架构上也蛮清爽——生产者写消息到主题，消费者自己拉着读。分区+副本机制，既能扩展也能抗宕。想做实时日志采集、行为埋点那类场景，Kafka 基本稳了。

Flink 和 Storm是偏实时的狠角色。Flink比较强在状态管理和窗口操作，还支持事件时间，做复杂计算时顺手；Storm胜在稳定，适合低延迟、高并发的，比如广告点击流、设备监控那类。

Apex呢，现在用的人不算多，但它强调容错和低延迟，有些金融或者工业场景，还挺看重它的这点特性。Spark Streaming就比较亲民了，尤其是你已经在用 Spark 做批的，那用它顺手多。虽然微批模型稍微没那么“实时”，但胜在生态好。

报告里还贴了性能测试，Kafka 跑得飞快，Flink 和 Spark 做了 HiBench 对比，连 Apex 也简单测了下——结果就不剧透了，自己看吧。还有不少实用资源和案例链接，像Kafka+Storm+HBase整合那种，适合边学边练。

如果你正想搭实时数据链路，或者在几个框架间犹豫，不妨先把这篇报告过一遍。想省试错成本？这个资料就还蛮值的。