黑盒里的 Spark 内核怎么运转的,多人都只知其一不知其二。这份Spark 技术内幕文档就挺有意思,内容扎实,讲得也不绕,适合你想系统梳理 Spark 架构的时候看一看。

DAG 调度器的设计思路讲得蛮清楚,配合源码解读,读起来还挺顺畅。比如你想了解Stage 划分Task 调度这块,文档里不仅有流程图,还有关键类和方法的。

内存管理机制也有覆盖,像UnifiedMemoryManager这种容易混淆的类,它会结合场景讲怎么分配执行和存储内存。响应也快,调优建议也贴心。

如果你是刚转 Spark 的同学,文档的语境比较亲民,不用太担心看不懂。像RDDDataFrame这类转型,它都用实际例子带你过一遍,嗯,算是比较友好了。

还有一点不错,文末了几个延伸阅读:像架构图Apache Spark 2.4.2 原理、甚至是和Hadoop 的对比,补充得挺全面。

如果你最近刚好在写分布式计算框架、调研性能瓶颈,不妨抽空啃一啃,能省下不少踩坑时间。