关系型数据库和 Hadoop 之间的数据搬家,Sqoop干这个事儿还是蛮顺手的。你要是正好搞大数据,又想从 MySQL、Oracle 之类的数据库导点数据进 HDFS,这份入门到进阶的 PDF 教程还挺合适。
Sqoop支持全量、增量导入导出,性能也不错,适合批量任务。教程里直接给了安装步骤,环境用的是 CentOS 6.6,JDK 1.7 配 Hadoop 1.1,适合老系统实验,路径、用户权限这些也讲得挺细。
讲到Sqoop 1 和 2的区别时,也没绕弯子。简单说,Sqoop 2多了 Web UI、REST API、安全性也上去了,就是部署稍微麻烦点。
PDF 里还贴心地整理了几个常见场景,比如导数据到 Hive、做增量导入啥的,比较适合平时要跟定时任务打交道的兄弟们。如果你在公司项目里碰到 Hadoop 和数据库打通的问题,值得翻一翻。
哦对了,如果你想进一步看看具体迁移示例,也可以点后面的链接,有手把手带你跑一遍的教程。