Apache Atlas 的 2.2.0 源码包,功能比较全,适合你想深入定制或理解数据治理的项目用法。

数据血缘、元数据管理、安全管控这些功能都比较实用,尤其在做大数据治理项目的时候,能省不少事。你想搞清楚某张表的来源、字段怎么变过,Atlas 的血缘追踪图一眼就能看明白。

apache-atlas-2.2.0-sources.tar.gz这个压缩包里基本啥都有,构建脚本、Java 代码、REST API 接口全都带着。配合Maven和 Hadoop 生态的东西用起来还挺顺手。

HiveHBase这些常见组件,它也有现成的集成方案。你只要熟悉下它的TypeSystemEntity REST API,自定义模型也不难。嗯,整体的插件架构设计还蛮灵活,自己加功能也不费劲。

对了,建议你看下它的审计日志和多租户支持部分,在做企业合规那块挺关键的。如果你打算做定制开发或搞数据血缘可视化,用这个源码包绝对比只装二进制包靠谱得多。

如果你对数据资产管理感兴趣,可以顺便看看Atlas 2.2.0 源码编译包:简化大数据元数据管理这篇文章,有不少细节讲得还挺清楚。