CDH 6.3.1 环境下的元数据管理可以直接上手apache-atlas-2.1.0-hive-hook.tar.gz这个包,配置起来不算麻烦,效率也还不错。你只要把它解压,拷到对应的 Hive 节点,按文档配一下配置文件,就能自动采集 Hive 里的操作元数据,连表创建、数据导入都能捕捉到。
Hive 的 Hive Hook 机制挺灵的,像你写的CREATE TABLE
、LOAD DATA
,它都会自动打点记录到 Atlas 里。对追踪数据血缘、做审计方便,不用你手动填那些表关系。
Apache Atlas 2.1.0这一版和 CDH 6.3.1 兼容性挺好,不会遇到版本不匹配的问题。你只要注意下 Hive 和 Atlas 之间的配置,比如hive.exec.post.hooks
和atlas.hook.hive.synchronous
,这些都得配对。
如果你团队在跑数据治理,在搞数据目录或元数据整合,真的推荐把这个 Hook 加进去。它支持自动更新元数据,不用你再写一堆脚本同步,蛮省事。
对了,如果你还想深入了解元数据管理,可以看看Apache Atlas 元数据管理详解那篇文章,写得挺细,顺便还有其他几个资源也可以看看。