招聘数据的招聘数据清洗真不是件小事,字段乱七八糟,格式五花八门,用肉眼清洗,效率低得要命。MapReduce的分布式特性就派上用场了,能把大块任务拆成小块扔给各个节点跑,嗯,效率杠杠的。

mapreduce 综合应用案例.zip就是这么一个还挺实用的案例,主打的是用 MapReduce 搞定招聘数据清洗。数据源是.csv或者.json,先用Map阶段抽取出岗位、学历、工作经验这些字段,成键值对,比如<“Java 开发”, “3 年”>这种,接下来进入Reduce阶段聚合清洗,像经验不一致的,取个常见值或者套业务规则。

除了代码,案例包里还有个文档.pdf,讲得挺细,从 MapReduce 的底层逻辑到实现步骤都有,适合边看边练;另一个产品.zip是 Hadoop 工具的配置,对初学者挺友好的。

对了,如果你还不太了解 MapReduce 是啥,MapReduce 并行框架这篇文章可以先看看,挺好懂的;或者你想扩展下清洗工具的视野,也推荐你翻翻OpenRefineKettle 教程,都是干活时用得上的。

mapreduce 综合应用案例.zip不花哨但够实在,适合你想搞懂 MapReduce 在大数据清洗中怎么用、怎么落地。如果你正好也要搞招聘数据,别犹豫,试试看呗。