高效灵活的大数据框架 Spark 的简单案例,适合刚入门的小伙伴快速上手。讲了RDDDataFrameMLlib的一些基本用法,还贴了不少实际代码,操作起来不难,挺适合边学边练的。像flatMap拆词、count统计、groupBy分组这些,都有例子,照着改就能跑。

本地模式启动、读取txtcsv文件,整个流程比较顺,适合当模板直接用。如果你刚开始玩 Spark 或者要搞个原型验证,不妨从这套代码下手,省不少摸索时间。

而且还有个朴素贝叶斯分类的小 demo,用的是MLlib,虽然简单,但逻辑清晰,能帮你理清 Spark 在机器学习这块的大致玩法。

要注意的是,SparkSessionSparkContext各有用处,前者偏DataFrame操作,后者搞RDD比较多,别搞混了就行。

如果你想多练练,可以看看下面推荐的几个案例,像搜狗搜索流、RDD 实战之类的,资料也挺全。