Spark WordCount示例代码

基于 Spark 的 wordcount 代码，算是入门分布式计算的经典例子。逻辑清晰，代码结构也挺简洁，适合刚接触 Spark 的同学练练手。配合 Spark 自带的 RDD API，用起来还蛮顺，跑小文件快。你要是平时接触过 Hadoop，对这套模式会更熟一点。

基于Spark的wordcount代码，逻辑不复杂，功能也就一个：统计文本中各个单词的数量。核心思路就是读取数据、拆分单词、映射计数、聚合。用的都是 Spark 里最基本的操作，比如flatMap、map、reduceByKey。

用SparkContext.textFile加载文件，用flatMap按空格拆词，一步到位；map负责标记每个词一次；reduceByKey干脆利落地把相同单词的数量加起来，思路直白，响应也快。

代码还蛮适合配合一些小测试数据来跑，比如几百行的 TXT 文件，立马出结果。如果你用的是Spark-2.0.2-bin-hadoop2.6版本，兼容性也比较稳定，基本无坑。

运行时注意 Spark 环境配置，最好先把环境变量设好，比如SPARK_HOME和PATH；还有 Hadoop 环境也得有，不然 Spark 启动容易报错。

如果你对分布式感兴趣，推荐顺带看看Spark 分布式计算框架和hadoop 集群搭建这两个资料，搭配起来学习效果更好。

嗯，代码不复杂，但理解整个流程还是挺锻炼人的。如果你是初学者，可以先本地跑通，再研究怎么在集群里部署。