网易数帆的 Serverless Spark 框架 Kyuubi,最近真是让我眼前一亮。企业级的稳定性,配上Serverless 的灵活性,对前端开发接入大数据,挺友好。你不需要管 Spark 的底层部署,也不用在调优上烧脑,直接调用接口就能跑数据。嗯,效率一下子就上去了。

背后的设计思路也蛮巧妙。Kyuubi 其实相当于把 Spark 封装了一层,你像用数据库一样用 Spark,连 JDBC 都支持,写起来像 SQL 那样简单直观。kyuubi-sql-engine模块做的不错,响应也快,适合批量任务或数据湖操作。

它和一些常用的数据湖技术,比如HudiDelta LakeIceberg都能搭配使用,扩展性也不错。配合网易内部的其他工具,例如他们对MySQL的一些优化指南,也可以把数据流打通得更顺畅。

哦对了,Apache Kyuubi也已经开源了,想研究架构或者做二次开发的也有的玩。推荐你去看看姚琴在网易技术沙龙的分享,讲得还蛮深入。想了解更多实战案例的话,可以顺便看看这篇《Apache Kyuubi 简介与特性详解》,讲得还挺清楚。

如果你也被 Spark 任务压得喘不过气,又不想搭一堆复杂集群,可以试试 Kyuubi。适合团队初期落地数据湖方案,也适合老项目的轻量迁移。