MapReduce 的经典入门例子,非WordCount
莫属。结构简单,逻辑清晰,适合你快速理解Map
和Reduce
怎么配合干活。嗯,尤其是你刚上手分布式开发,用它练练手挺合适。
Map 阶段的 map 函数负责拆词,也就是把每一行文本按空格切开,生成一堆(word, 1)
的键值对。Reduce 阶段再把这些键值对按单词归并,统计每个词出现的次数。响应也快,代码也简单,跑起来一目了然。
你要是想更深入了解,可以看看这两篇文章:Hadoop 分布式计算平台概述 和 MapReduce 并行框架,都还不错,讲得蛮细。
建议你跑一遍代码,再试着改点东西,比如改成统计每行的最大值、最小值,这样练习更扎实。MapReduce 玩得熟了,再看 Spark 也不吃力了。