资源调度逻辑的 Spark 思维导图,整理得还挺清晰的,适合搞分布式计算的同学拿来理思路用。尤其是你对Spark的资源分配机制还一头雾水的时候,看看这个图,能秒懂Executor
、Task
、Driver
这些概念怎么配合起来跑任务的。
调度策略的对比也做得蛮到位,比如 FIFO 和 Fair Scheduler 的差异,图上拉出来就一目了然,不用一行行翻文档了。日常开发调优,尤其是跑大 Job 卡资源那种,用这个图做参考,还挺有的。
如果你之前用过 Hadoop YARN,那对比起来你会发现,Spark 的资源调度更灵活一点。不过底层概念也有重叠,像Container
和Slot
这些,还是得弄清楚谁是谁。
建议配合这些资料一起看,会更系统一点:
如果你正在做大数据平台的资源调优,或者刚上手 Spark 的同学,这份SparkResourceScheduling.xmind
可以先拿来梳理下框架思路,再看代码也不迟。