hadoop 数据的海量能力配上 oracle 的关系型数据优势,组合起来确实挺香。你如果是做数据仓库、ETL 或者数据同步场景,这套组合用得比较多,像日志数据存 hadoop、业务核心放 oracle,取数聚合的时候就得整合一下。

比较常见的做法是通过Sqoop,一键把 oracle 里的表导进 hadoop,速度还挺快,配置也不复杂。你只要搞清楚 JDBC 连接、字段映射这些,基本就能跑起来。反过来想从 hadoop 写回 oracle,也支持。

数据迁移建议先看看这个例子:大数据平台数据迁移从 Oracle 到 Hadoop,里面讲得比较清楚,命令行怎么写,参数怎么配,一看就懂,适合你直接上手。

如果你是第一次接触,可以先补下基础,Hadoop 大数据指南大数据入门认识大数据 1Hadoop 基础学习 都蛮适合新手的,写得挺通俗。

啦,要是你整合的不止 oracle,还想搞点AmbariSpark那种大数据组件混搭,可以看看这个资源:整合大数据组件版本 Ambari 的 Hadoop、Spark、HBase、Phoenix 应用,比较全套。

提醒一句,oracle 那边字段类型和 hadoop 里映射要小心点,尤其是DATENUMBER,不面聚合或者筛选数据的时候容易出问题。如果你要跑批量任务,MapReduce也可以参考下,离线数据还挺稳的。

如果你正好有 oracle 数据想迁移、想玩点数据湖相关的,那这几个资源可以先收藏起来,踩坑少不少。