Hadoop HDFS分布式存储机制

Hadoop 的大数据方式还挺有意思的，尤其是它的文件系统 HDFS，设计得蛮硬核。你可以把 PB 级别的大文件丢进去，照样跑得挺稳。HDFS 有点像一套聪明的仓库系统，用 NameNode 管账，用 DataNode 搬货，配合起来效率还挺高。

HDFS 的块存储机制比较适合超大文件。像视频、日志、数据备份这类动辄几十 GB 的文件，拆成 128MB 一块分给不同的DataNode去存，读取的时候还能自动挑离你最近的节点，响应也快。

数据块的多副本机制香，默认每块会复制 3 份。万一哪台机器挂了，系统还能自救补块，不容易丢数据。你要做高可用存储，这机制还挺关键的。

要说能力，MapReduce这套东西虽然老，但在批量上还挺能打。Map 阶段原始数据，Reduce 阶段来个总汇，适合跑日志、推荐系统这些。写代码稍麻烦点，不过你用Hive或者Pig配合下也能轻松些。

而且 Hadoop 不是单打独斗，它背后那票兄弟——Spark、HBase、Hive啥的，都是大数据的好帮手，能查能算还能搞实时。

如果你在搭建分布式存储系统，或者准备超大规模数据，不妨了解一下 Hadoop 体系。哦对，HDFS Comics那篇文章也不错，讲得还蛮通俗。