Spark 入门实战系列的 PDF 教程真挺全的,专为刚接触 Spark 的朋友准备。每一篇都不啰嗦,干货多,覆盖了从 SQL 到流、图计算、机器学习等内容。

Spark SQL这一块,教程讲得蛮细,怎么建DataFrame、跑SQL、看执行计划优化——都有,适合做或者建数仓的你。

还有运行架构那章,说清楚了RDD是怎么跑的,任务调度是怎么回事,配合集群用的朋友别错过。

系统部署的章节也挺实用的,从源码编 Spark,到怎么在Hadoop集群上部署,讲得比较接地气,运维和开发都能看。

顺便还带了Hive的内容,虽然不属于 Spark,但两者配合得多,这一章能帮你搭好环境。

实时也有!Spark Streaming那几篇主要讲怎么实时数据流,DStream的用法、窗口操作啥的都讲到了,适合搞实时看板的场景。

至于GraphXMLlib,嗯,也没落下,一个讲图算法,一个搞机器学习,内容也挺实在,举了不少例子,比如决策树、分类器啥的。

,这套教程不是走马观花,而是边讲边实操,对初学者挺友好。如果你刚开始搞 Spark 或者想系统补补基础,真心推荐看看。