高效灵活的大数据框架 Spark 的简单案例,适合刚入门的小伙伴快速上手。讲了RDD
、DataFrame
、MLlib
的一些基本用法,还贴了不少实际代码,操作起来不难,挺适合边学边练的。像flatMap
拆词、count
统计、groupBy
分组这些,都有例子,照着改就能跑。
本地模式启动、读取txt
和csv
文件,整个流程比较顺,适合当模板直接用。如果你刚开始玩 Spark 或者要搞个原型验证,不妨从这套代码下手,省不少摸索时间。
而且还有个朴素贝叶斯分类的小 demo,用的是MLlib
,虽然简单,但逻辑清晰,能帮你理清 Spark 在机器学习这块的大致玩法。
要注意的是,SparkSession
和SparkContext
各有用处,前者偏DataFrame
操作,后者搞RDD
比较多,别搞混了就行。
如果你想多练练,可以看看下面推荐的几个案例,像搜狗搜索流、RDD 实战之类的,资料也挺全。