Spark 入门实战系列的 PDF 教程真挺全的,专为刚接触 Spark 的朋友准备。每一篇都不啰嗦,干货多,覆盖了从 SQL 到流、图计算、机器学习等内容。
像Spark SQL这一块,教程讲得蛮细,怎么建DataFrame
、跑SQL
、看执行计划优化——都有,适合做或者建数仓的你。
还有运行架构那章,说清楚了RDD
是怎么跑的,任务调度是怎么回事,配合集群用的朋友别错过。
系统部署的章节也挺实用的,从源码编 Spark,到怎么在Hadoop
集群上部署,讲得比较接地气,运维和开发都能看。
顺便还带了Hive的内容,虽然不属于 Spark,但两者配合得多,这一章能帮你搭好环境。
实时也有!Spark Streaming那几篇主要讲怎么实时数据流,DStream
的用法、窗口操作啥的都讲到了,适合搞实时看板的场景。
至于GraphX和MLlib,嗯,也没落下,一个讲图算法,一个搞机器学习,内容也挺实在,举了不少例子,比如决策树、分类器啥的。
,这套教程不是走马观花,而是边讲边实操,对初学者挺友好。如果你刚开始搞 Spark 或者想系统补补基础,真心推荐看看。