一体化的 Flink 流批架构,阿里团队的实战方案还挺有看头的。Flink本身就支持流式计算,这套资源把批也整合进来了,适合那种既有实时又有离线需求的场景。嗯,用起来能少折腾好多流程。

阿里的实践部分讲得比较细,像数据一致性、窗口机制这些点都有提到,不是官方文档照搬。部署架构也给了参考图,挺适合拿来对比你自己现在的系统设计,看哪里能精简。

如果你现在用的是 Flink 1.x 版本,建议先看下里面的版本,毕竟里面的例子是基于Flink 3.2.0的,不注意的话容易踩坑。部署用的包也整合了HBase 3.1.3,省得你自己再去拉依赖、配环境,直接上手会快多。

开发上用的 API 还是比较新那套,像DataStreamTable API都有覆盖,写法上也给了些优化建议。嗯,尤其是数据倾斜的,里面提到的一些算子组合我觉得可以试试。

如果你最近正好在搞数据平台一体化,又不想重造轮子,这套资源可以先拉下来看看,先抄一遍再说。