大数据复习的资料太多?这份《大数据复习题(2021)》PDF 就挺实用的,内容聚焦在大数据的几个核心技术,像是 MapReduceSpark,讲得还挺细,关键流程拆解得清清楚楚,连 CombinerShuffle 的细节都没落下。

MapReduce 的逻辑结构其实不难理解,就是“分而治之”的思想——先拆成小任务(Map),汇总(Reduce)。中间还有个 Shuffle 阶段,负责给数据“分组配对”,这样每个键对应的值就能聚到一块了。

而 Spark 就更灵活了,支持内存计算,速度也快多了,尤其是你不想等结果的场景,像实时啥的,用 Spark 就对了。你要是搞过 RDDDataFrame,会觉得上手还挺快的。

文件里还聊到了 Hadoop 的基本架构,HDFSYARNMapReduce 三兄弟谁负责啥,一看就懂。举个例子,HDFS 就是你家仓库,MapReduce 是工人,YARN 则是调度工的,三者配合效率还不错。

对了,还提到了 Jaccard 相似度,这个在文本场景下蛮常用的,像是推荐系统、用户画像那类任务。你要是做数据挖掘,估计经常能碰上。

如果你正在备考或者需要梳理大数据的思路,这份 PDF 挺适合拿来刷一遍的,逻辑清晰,知识点覆盖也全面。顺手我还找了几个配套资源,一起看效果更好: