Spark 的面试资料,内容还挺全,讲得也蛮透,尤其适合准备跳槽或者刚接触 Spark 的朋友。
RDD 的那部分讲得挺细,弹性、分布式、不可变这些关键特性,直接讲大白话,还配了几个使用建议,方便你对照理解。
map、foreach这些常用算子的区别也有解释,尤其是mapPartitions和foreachPartition,适合大数据时优化性能——嗯,真的挺实用。
还有宽依赖、窄依赖的,对理解Spark 任务调度蛮关键的。讲 Stage 划分那段也不错,直接串起来你就知道 Spark 作业怎么一段段跑了。
别忘了那段讲的spark-submit引 jar 包的方式,--jars
、--py-files
还有SPARK_CLASSPATH
这些方法,现场用得上的。
如果你正在准备面试,或者想把 Spark 基础打扎实,真的可以把这个资料看一遍,顺手收藏下这些链接,基本够用了。