加载管理器的功能挺实用的,适合搞数据仓库开发的朋友看看。抽数据、转格式、临时存、再加载,全流程它都能帮你搞定,是在数据量大的时候,效率真的能省不少力气。而且用起来不复杂,配置好源系统路径和目标结构,就能开始跑任务了,自动化也方便。
数据抽取是它的起点,像从Oracle
、Informix
这种老牌数据库里抽数,它都能搞定。数据拿下来后先放到临时表里,响应也快,方便你后续转换。
数据转换它也能,像字段格式清洗、数据类型对齐,基本不用你额外写脚本。直接加载到和你数据仓库
结构类似的表里,基本能做到一条龙。
如果你用的是Greenplum
之类支持外部表的数据库,搭配加载器能把速度提上去不少。甚至连Matlab
、PyTorch
这类也能接得上,看你具体需求。
想深入了解的可以看看数据加载管理工具这篇文章,里面讲得挺细;或者你对Oracle
环境熟的话,Probe 的数据抽取方案也值得一看。
对了,用的时候注意一下临时存储空间,数据大时别让硬盘爆了;还有就是转换逻辑尽量清晰,别搞太复杂,否则容易出错。
如果你正在做数据仓库
加载流程,或者老是头疼抽取、转储这些重复活儿,可以试试这类加载管理器,能省不少事儿。