Spark 的数据操作能力确实挺强的,是做文本的时候,简单直接还蛮高效的。像“Spark 编程基础实验三数据”这个资源就挺实用,适合刚接触 Spark 的朋友练练手。
分布式计算框架的 Spark,启动快,操作流畅,用 Python 配合起来还挺顺手。实验用的是data-set01.txt
文本文件,结构简单,适合入门练习。
先从创建 Spark 会话开始,用pyspark
就能搞定:
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("SparkProgrammingBasics")
sc = SparkContext(conf=conf)
读文件也就一行代码的事:
text_file = sc.textFile("data-set01.txt")
有了 RDD,基本操作就随你发挥了,像map
、filter
都可以轻松用起来。比如把内容全转小写,用这一行就行:
lowercase_file = text_file.map(lambda line: line.lower())
要是你只对某些关键词感兴趣,可以加个过滤:
filtered_file = lowercase_file.filter(lambda line: "关键字" in line)
计数也简单,直接.count()
搞定。要词频?用reduceByKey
组合一下就成:
sum_result = lowercase_file.map(lambda line: (line, 1))\
.reduceByKey(lambda a, b: a + b)\
.collect()
整个实验流程挺自然的,不用太多配置也能跑通。适合你在学习RDD
概念、练习map
/filter
等基础操作时试一试。
哦对了,如果你想深入了解 Spark 框架,还可以看看这两个资料:
如果你刚开始学 Spark,或者需要一套可快速上手的数据实验资源,这篇内容蛮合适的,能帮你打好基础。