Flink 的实时能力加上 Pravega 的高吞吐存储,组合起来可以说是流式数据的一对黄金搭档。架构设计上也挺清晰,从数据采集、缓存、计算、存储到,全流程都考虑到了,而且每一块都有比较成熟的组件支持。

数据 Sources 那块支持挺多,像KafkaKinesisPub/Sub这些主流流源都能对接,比较灵活。你如果项目上已经用了这些,接入 Pravega 也不麻烦。

Ingest Buffer是个亮点,用 Pravega 来当缓存区,性能还不错。是在数据量大的场景下,不容易丢数据,吞吐量也跟得上。适合做日志收集、IoT 设备上报这类高频写入。

Streaming Engine,Flink 在这里就能发挥威力了。mapfilterwindow都能上,起来响应快,代码也清爽。你用过 Flink 的 DataStream API 就知道那套写起来还挺顺手。

落地存储这块也比较宽松,支持CassandraDynamoDB这类 NoSQL,扩展性不错。如果后面需求重,还可以把数据推给 Spark 再搞一波。

Pravega 的Streams模型也值得一说,核心就是把流按Segment切开,存起来再读出来,方便后期并行。配合 Flink 就能边读边算,还能做流回溯,挺适合需要数据重的场景。

说到统一模型,Unified Model把语义、API 和执行环境都打通了,不管你是写Flink SQL还是用 Table API,逻辑是通的,运行时也统一,不容易踩坑。

如果你在做实时风控、用户行为,或者设备数据监控,Flink + Pravega 这套组合真的挺香的。部署也没多复杂,有容器环境的话,一套 Docker Compose 就能拉起来。

想深入了解的话,可以看看这份 PDF,讲得比较细,适合你边读边动手试。