MapReduce 的并行机制挺适合搞大数据的,是在 Hadoop 环境下用 Java 来写那套流程,虽然一开始有点门槛,但搭配 Maven 其实也不复杂。像MapperReducer这两个核心类,你写过一次就知道套路了。要注意字符编码问题,中文数据时常会碰到乱码,记得下 byte 到字符串的转换。嗯,还有,依赖管理交给 Maven 挺省心的,配置好pom.xml,各种 Hadoop 相关包都能拉得稳稳的。