黑色背景的分布式系统图挺直观,Hadoop 的体系也比较清晰,适合刚入门的你快速过一遍核心概念。讲了三个方面:Hadoop 的快速入门分布式系统概览离线。没那么教条,思路挺顺,配图也还行,刷一遍知道怎么回事了。

Hadoop 的入门内容讲得比较轻松,不是死板的架构图堆叠。比如你第一次接触HDFS,这里的解释就是拿“拆文件存到多台机器”来打比方,挺容易懂的。再配合用MapReduce做个简单统计,思路就开了。

分布式系统部分提到了数据块副本、节点协作等点。嗯,别听着头大,它其实讲得还蛮接地气的。你可以把它想成一个“班级抄作业”的系统,哪台机器先做出来,其它照着跑,速度和稳定性也就上来了。

离线那块,主要说的是批,适合夜里跑任务那种。像你要统计一个月的日志访问量,直接用Hive跑一条 SQL,结果第二天早上就出来了。配合个HDFS数据源,用起来还蛮爽的。

如果你想对分布式底层机制多了解点,可以顺带看看Hadoop:分布式系统基石,讲得挺细,适合深入一层。不想太硬核的,也可以刷下Hadoop 分布式文件系统简介,了解下HDFS的工作方式,挺有。

如果你正好准备进数据方向,或者被老板安排做个离线统计的项目,这资源可以先看一眼。哦对,建议你一边看一边搭下 Hadoop 环境,效果更。