Spark 的企业级实战教程,讲真,挺有料的。不光讲理论,还带你一步步动手做项目。你要是对大数据这块感兴趣,尤其想搞清楚Spark到底怎么用,这套《大数据 Spark 企业级实战版 1-2》真的可以一看。
Spark 的核心架构讲得比较细,从 Master/Worker,到RDD
、DataFrame
这些数据结构都有提到。你要是想弄清楚 Driver 和 Executor 的关系,这部分内容别跳过。
部署配置也没少说,单机、本地、分布式环境都覆盖了,像YARN
、Mesos
、Kubernetes
这些主流环境都讲到了。环境搭建顺利了,后面练手才轻松。
编程这块支持的语言多,Scala
、Python
都能用。还有Spark Shell
的实操环节,比较适合刚上手练手。
Spark SQL部分挺实用的,是你习惯写 SQL 的,可以用DataFrame
做结构化数据,还能对接Hive
啥的,业务上接得挺紧。
实时用Spark Streaming
,这部分内容也还行。讲了DStream
怎么操作,怎么和Kafka
、Flume
对接,日志、交易流量这些都挺合适。
MLlib和GraphX也带到了,机器学习、图计算都有,虽然篇幅不多,但思路有了,后面自己再扩展就行。像分类、聚类这些基本算法也都有代码例子。
性能优化这一块你别跳,讲了shuffle
、内存调优、executor
配置啥的,对提升任务效率挺有的。生产环境跑得稳才是王道。
监控与排查也提到了Spark UI
、History Server
这些工具。你上线后,排错靠它们,别小看。
嗯,如果你已经上手 Spark,想进一步搞清楚业务落地怎么做,建议你直接看第二部分内容,实战多一些。对了,有几个相关文章也不错:
Spark 分布式计算框架、Apache Spark 内存计算与分布式框架、Spark-2.0.2-bin-hadoop2.6 版本,搭配一起看更全面。
如果你是做日志、推荐系统、数据监控这些方向的,这套教程还挺对路的,可以先从实战部分入手,再回头补理论。