黑色简洁风格的 Python 数据集成挺适合你要做大规模数据挖掘的时候用,响应快,逻辑也清晰。嗯,里面专门讲了数据合并、去重、缺失值填充这些比较常遇到的坑。像用Pandas上百万行数据,配合mergeconcat,还能写个小工具脚本自动跑批,挺省心。

SeaTunnel 的框架也还不错,多人用它做实时同步,想玩一把大数据流水线可以研究下。哦,对了,如果想找案例,数据集成案例解析蛮清晰,建议先看下再动手。

如果你打算搭配 Oracle GoldenGate,记得注意数据一致性,尤其是时间戳字段,别掉了精度,排查起来挺烦的。