分布式文件系统里的老大哥,HDFS的资料你看过不少,但这份文档真挺清楚。基础知识、架构机制、读写流程都梳理得明明白白,像NameNode和DataNode怎么配合的,写得顺溜,适合刚上手或者想打牢底子的朋友。
主从架构那块讲得还挺细,不只是说了谁干啥,还把交互流程说清楚了,比如客户端到底先找谁、数据是怎么走的,连心跳机制都有提到,实用性不错。
而且它还顺带讲了数据备份策略、安全模式、高可用机制这些高级一点的概念,对你搭 Hadoop 集群肯定有。写数据的时候,怎么从一个 DataNode 串联复制到其他节点的流程也交代清楚,蛮值得一看。
如果你准备搞大数据平台,尤其是用Hadoop的,建议先把这篇读一遍,脑子里就有个完整的HDFS模型了,查问题、调性能都方便不少。要想结合图看得更透,建议顺手点开图 4-1那块看看架构图。
顺带说一句,后面还列了一些相关的资料,像HBase、Redis、SequoiaSQL这些,也蛮值得收藏,扩展视野刚刚好。
如果你还在对HDFS的数据块怎么分、怎么备份、怎么恢复这些问题发懵,这篇绝对能帮你理清楚逻辑,建议收藏。