Hadoop 的 HDFS 架构,挺适合刚接触分布式文件系统的朋友。结构清晰,数据存储和校验分开走,出问题也好排查。心跳机制也设计得比较稳,不容易挂掉。文档有点偏底层,但看懂后你就知道为啥大数据圈这么爱它了。

HDFS的核心思路,就是把大文件拆成小块,扔到不同节点上。每块默认复制三份,节点挂了也能快速恢复。你要是做日志、图片归档,这种方式挺合适的。

数据块和metadata分离,NameNode 专门管文件目录和元信息,DataNode 负责实际存文件。看着有点绕,跑一遍你就懂。平时调试也别忘了观察心跳和副本状态,出问题基本都卡在这。

另外,想更深入了解的话,可以看看下面这些文章:
HDFS 分布式文件系统,讲得比较基础;
Hadoop 分布式文件系统 HDFS Web 界面解析,适合你用 UI 方式排查问题;
JAVA 开发必备:HDFS 分布式文件系统,跟 Java 打交道的强烈推荐。

如果你平时接触的是GoogleFSMooseFS,拿来对比一下也挺有意思的,思路差不多但实现细节有差。

如果你在搭建日志中心、做大文件归档,HDFS 绝对能顶上,配合Hadoop生态用,效果还不错。你要是自己部署,记得监控 NameNode,别等挂了才发现。