Sqoop 的老版本也有春天,sqoop-1.4.2.bin__hadoop-2.0.0-alpha.tar就是个挺有代表性的例子。它适配的是 Hadoop 2.0.0-alpha,虽然年头久了点,但拿来搭老集群做测试环境还挺方便的。适合搞大数据迁移的入门练手或者特定环境下的项目兼容测试。

Sqoop 的核心用法就是帮你把数据库和 Hadoop 打通。你可以一条命令把 MySQL、Oracle 的数据拉进 HDFS,完再导回去,效率还不低。像sqoop importsqoop export这种操作,是你用得最多的,语法也简单。

这个版本的亮点是它支持 YARN,虽然是 alpha 版,但架构已经从 MRv1 过渡到 MRv2,资源调度逻辑更清晰了。配套的并行导入机制,支持多 mapper 并发,配个合理的--split-by字段,导数据飞快。

安装配置方面也不复杂,解压后把目录加进PATH,再设定好HADOOP_HOME。要记得拷贝你的core-site.xmlhdfs-site.xmlconf目录,不然连不上集群。

连接器的兼容性还不错,MySQL、PostgreSQL、Oracle 都能用,只要 JDBC 驱动加好了就行。如果你碰上连接不上,多半是 JDBC 路径或者防火墙的锅。

增量导入也蛮实用,比如每天跑一个--incremental append任务,用--last-value跟踪数据变化,适合定时拉取更新。

如果你想搞清楚 Hadoop 数据流通的基本套路,这包资源还挺值得一试。对了,打算搭配 Oozie、HCatalog 用的,提前看看兼容性,老版本有时候会卡点。