Hadoop 2.x 的分布式框架挺适合搞大数据的,是你要批量日志、交易数据那种场景,用它真的省事儿多了。它的核心是HDFSMapReduce,前者负责数据怎么存,后者管怎么。而且 YARN 一加入,资源调度也变得更灵活,跑 Spark 都不在话下。

HDFS 的主从结构比较好理解,一个NameNode管目录和索引,多个DataNode干实事存数据。数据默认三副本,哪怕某台机器挂了也不会影响太大。写入流程也清晰,客户端先问 NameNode,再分发数据给 DataNode,挺高效。

MapReduce 的三个阶段,你得熟点:Map 拆解数据、Shuffle 分发数据、Reduce 再整合出结果。像日志统计、关键词提取这种就特适合它。YARN 更牛,每个程序有自己的Application Master,跟Resource Manager打交道申资源,整个调度更智能。

还有几个 Hadoop 2.x 的改进蛮关键,比如HDFS 高可用避免单点故障,联邦 HDFS支持多 NameNode,能扛更大规模的数据,还有Block 大小也能自己调,视频这类大文件就方便。

如果你是前端但对数据有兴趣,可以看看文档0101+初识 Hadoop+2.x.pdf,从 HDFS 开始入手,慢慢摸到 MapReduce 和 YARN,会对大数据后端有个比较清晰的认知。