ETL 流程里的压力和挑战,老实说,谁干谁知道。是那种又要快、还不能影响线上业务的场景,搞不好真能让人头大。Oracle 的数据仓库方案就挺适合应对这种情况,尤其是配合 Probe 做数据抽取,效率还不错,流程也清晰。
短时间大量数据的压力,不只是你遇到,多系统上线前都卡在这一步。Oracle 这边的思路是把 ETL 拆得更细,像是抽取那块用 Probe,能做到实时监听变更数据,性能还挺稳。
不影响业务系统这点关键,毕竟线上系统一崩,别说 BI 了,运营都得来找你。Oracle 方案一般是异步抽取+缓冲区设计,思路挺清晰,适合对可用性要求高的项目。
ETL 的复杂度也不是闹着玩的,逻辑多、规则杂,稍不注意就数据错乱。推荐你看看下面这个Kettle的使用文档,蛮适合中小型数据仓库项目:
另外,如果你喜欢玩Python,用它写 ETL 也挺方便的,灵活性高,适合那些结构不太标准的数据源:
如果你项目刚起步,可以先读下这篇:
数据抽取转换装载(ETL)综述及工具比较,能帮你选工具,定流程。
,别小看 ETL 这一步,它是数据仓库里最磨人的,想省心一点,Oracle 这一套流程配上合适的工具,还是挺靠谱的。如果你项目对稳定性要求高,蛮推荐试试。