Spark入门案例集

高效灵活的大数据框架 Spark 的简单案例，适合刚入门的小伙伴快速上手。讲了RDD、DataFrame、MLlib的一些基本用法，还贴了不少实际代码，操作起来不难，挺适合边学边练的。像flatMap拆词、count统计、groupBy分组这些，都有例子，照着改就能跑。

本地模式启动、读取txt和csv文件，整个流程比较顺，适合当模板直接用。如果你刚开始玩 Spark 或者要搞个原型验证，不妨从这套代码下手，省不少摸索时间。

而且还有个朴素贝叶斯分类的小 demo，用的是MLlib，虽然简单，但逻辑清晰，能帮你理清 Spark 在机器学习这块的大致玩法。

要注意的是，SparkSession和SparkContext各有用处，前者偏DataFrame操作，后者搞RDD比较多，别搞混了就行。

如果你想多练练，可以看看下面推荐的几个案例，像搜狗搜索流、RDD 实战之类的，资料也挺全。