Spark 入门的起点就是搞懂它的三个核心模块:Spark CoreSpark StreamingSpark SQL。Core 像底座,搞定任务调度和资源管理;Streaming 负责实时数据流;SQL 这块嘛,就是给你一个熟悉的操作方式来查数据,挺适合有数据库背景的你。

Spark Core的东西比较基础但也最关键,比如 RDD、任务划分、Job 调度这些。别觉得枯燥,理解了这个,后面不管是跑批还是实时,思路都顺了。

Spark Streaming挺适合做实时数据,比如日志监控、实时用户行为这种需求。你只要搞定 DStream 的概念,再加上一点窗口函数用法,起来还蛮顺手的。

Spark SQL适合数据工程师过渡到分布式场景,支持标准 SQL 语法,跟传统 BI 工具也好对接。你可以用DataFrame写 SQL,也能写类似select * from user where age > 30这种语句,简洁明了。

推荐几个不错的资料:

如果你正准备做实时数据项目,可以重点看看 Streaming 相关的几篇资料;刚入门的话,先搞懂 Core 最靠谱。