MapReduce并行处理框架

MapReduce 的并行机制挺适合搞大数据的，是在 Hadoop 环境下用 Java 来写那套流程，虽然一开始有点门槛，但搭配 Maven 其实也不复杂。像Mapper和Reducer这两个核心类，你写过一次就知道套路了。要注意字符编码问题，中文数据时常会碰到乱码，记得下 byte 到字符串的转换。嗯，还有，依赖管理交给 Maven 挺省心的，配置好pom.xml，各种 Hadoop 相关包都能拉得稳稳的。