Hadoop 2.x分布式框架

Hadoop 2.x 的分布式框架挺适合搞大数据的，是你要批量日志、交易数据那种场景，用它真的省事儿多了。它的核心是HDFS和MapReduce，前者负责数据怎么存，后者管怎么。而且 YARN 一加入，资源调度也变得更灵活，跑 Spark 都不在话下。

HDFS 的主从结构比较好理解，一个NameNode管目录和索引，多个DataNode干实事存数据。数据默认三副本，哪怕某台机器挂了也不会影响太大。写入流程也清晰，客户端先问 NameNode，再分发数据给 DataNode，挺高效。

MapReduce 的三个阶段，你得熟点：Map 拆解数据、Shuffle 分发数据、Reduce 再整合出结果。像日志统计、关键词提取这种就特适合它。YARN 更牛，每个程序有自己的Application Master，跟Resource Manager打交道申资源，整个调度更智能。

还有几个 Hadoop 2.x 的改进蛮关键，比如HDFS 高可用避免单点故障，联邦 HDFS支持多 NameNode，能扛更大规模的数据，还有Block 大小也能自己调，视频这类大文件就方便。

如果你是前端但对数据有兴趣，可以看看文档0101+初识 Hadoop+2.x.pdf，从 HDFS 开始入手，慢慢摸到 MapReduce 和 YARN，会对大数据后端有个比较清晰的认知。