Spark 的零基础思维导图,整理得蛮清楚的,主线就是spark-corespark-streamingspark-sql,框架清晰,一眼就知道从哪儿下手。适合刚上手 Spark 的同学,像拿来复习也挺方便。

spark-core的部分,基本覆盖了 RDD 的操作方式、分区、累加器啥的,点到为止但挺有用,配合SparkCore 分区与累加器详解看更透彻。

流就看spark-streaming,对流式应用的开发思路有点,像什么 DStream、窗口操作、实时数据统计这些都带到了。嗯,建议搭配SparkStreaming 应用开发指南,能直接跟着做几个小 demo。

spark-sql那块也没落下,基本 SQL 语法、DataFrame 和 DataSet 操作都提到了,用来应付常规的离线够了。比如SparkSQL 语句总结SparkSQL 离线任务优化方案这俩文章,结合着图看更有感觉。

整体看下来,导图不是花哨,但逻辑清晰、内容紧凑。想快速捋清 Spark 的基础模块,这套图确实还不错。

如果你刚准备学 Spark,或者之前看过但还没成体系,可以把这份导图打印出来贴工位,真有用。