大数据复习的资料太多?这份《大数据复习题(2021)》PDF 就挺实用的,内容聚焦在大数据的几个核心技术,像是 MapReduce 和 Spark,讲得还挺细,关键流程拆解得清清楚楚,连 Combiner
和 Shuffle
的细节都没落下。
MapReduce 的逻辑结构其实不难理解,就是“分而治之”的思想——先拆成小任务(Map),汇总(Reduce)。中间还有个 Shuffle 阶段,负责给数据“分组配对”,这样每个键对应的值就能聚到一块了。
而 Spark 就更灵活了,支持内存计算,速度也快多了,尤其是你不想等结果的场景,像实时啥的,用 Spark 就对了。你要是搞过 RDD
或 DataFrame
,会觉得上手还挺快的。
文件里还聊到了 Hadoop 的基本架构,HDFS
、YARN
、MapReduce
三兄弟谁负责啥,一看就懂。举个例子,HDFS
就是你家仓库,MapReduce
是工人,YARN
则是调度工的,三者配合效率还不错。
对了,还提到了 Jaccard 相似度,这个在文本场景下蛮常用的,像是推荐系统、用户画像那类任务。你要是做数据挖掘,估计经常能碰上。
如果你正在备考或者需要梳理大数据的思路,这份 PDF 挺适合拿来刷一遍的,逻辑清晰,知识点覆盖也全面。顺手我还找了几个配套资源,一起看效果更好: