spark 性能调优的干货资源,内容全、讲得细、源码也扒得比较透。
里面的spark-config-and-tuning是调参的关键,像spark.executor.memory
、spark.sql.shuffle.partitions
这些参数怎么配,关系到任务能不能顺利跑完,也影响资源用得是否高效。
spark-graphx-source-analysis和spark-ml-source-analysis就比较适合进阶用户,尤其是你想知道 GraphX 背后的消息传播机制,或者 MLlib 模型训练的优化逻辑,看源码比看文档靠谱。
还有一个spark-programming-guide-zh-cn,挺适合刚入门的同学,讲得比较通俗,例子也多,嗯,翻起来也轻松点。
如果你平时也用到像HBase、MySQL、Oracle这些数据库,那下面这堆相关文章可以搭配着看,比如HBase 性能调优或者MySQL 性能调优学生指南都挺实用的。
调 Spark 的时候也别忽略底层资源的协调,这篇讲 Hadoop、Zookeeper 的调优也值得看看,资源卡在哪一层,文章里都有说法。
如果你已经在做生产环境的调优,建议你直接冲第 08 讲-Spark 性能优化与资源调优策略,内容系统、案例也多,比较有参考价值。