Pig 的 MapReduce 模式安装配置其实不难,熟悉 Hadoop 的你应该上手挺快的。Pig 本身就是为了 MapReduce 写法复杂这事儿的,写脚本像写 SQL,效率高不少。安装就几步,下载、解压、改环境变量,熟悉 Linux 操作的都懂。

Grunt Shell 启动方式也比较直观,加个-x mapreduce参数就行,用来跑 MapReduce 任务还蛮稳的。Pig Latin 这个语法上手也不难,结构清晰,适合做数据清洗、转化这些中间工作。

你如果之前用过 Hive 或者直接写 MapReduce,应该能快对比出 Pig 的优势。Hive 偏查询,Pig 更灵活一点,尤其是半结构化数据,场景适配度挺高。

安装完建议把CLASSPATH配置搞清楚,别省这步,不面 Grunt 里加载脚本容易出错。如果你数据预任务比较多,又不想写那么多 Java 代码,Pig 还是挺推荐的一个工具。