Integrating Hadoop Data with Oracle关系型数据与大数据整合

hadoop 数据的海量能力配上 oracle 的关系型数据优势，组合起来确实挺香。你如果是做数据仓库、ETL 或者数据同步场景，这套组合用得比较多，像日志数据存 hadoop、业务核心放 oracle，取数聚合的时候就得整合一下。

比较常见的做法是通过Sqoop，一键把 oracle 里的表导进 hadoop，速度还挺快，配置也不复杂。你只要搞清楚 JDBC 连接、字段映射这些，基本就能跑起来。反过来想从 hadoop 写回 oracle，也支持。

数据迁移建议先看看这个例子：大数据平台数据迁移从 Oracle 到 Hadoop，里面讲得比较清楚，命令行怎么写，参数怎么配，一看就懂，适合你直接上手。

如果你是第一次接触，可以先补下基础，Hadoop 大数据指南和大数据入门认识大数据 1Hadoop 基础学习都蛮适合新手的，写得挺通俗。

啦，要是你整合的不止 oracle，还想搞点Ambari、Spark那种大数据组件混搭，可以看看这个资源：整合大数据组件版本 Ambari 的 Hadoop、Spark、HBase、Phoenix 应用，比较全套。

提醒一句，oracle 那边字段类型和 hadoop 里映射要小心点，尤其是DATE和NUMBER，不面聚合或者筛选数据的时候容易出问题。如果你要跑批量任务，MapReduce也可以参考下，离线数据还挺稳的。

如果你正好有 oracle 数据想迁移、想玩点数据湖相关的，那这几个资源可以先收藏起来，踩坑少不少。