Hadoop 的Block 数据块是整个存储的核心,基本上就是每次数据读写的最小单元。每个块的大小一般是64M,这样做是为了提高效率,减少磁盘寻道时间,也能让数据管理更高效。文件在存储时会被分割成多个块,分布在不同的机器上,像磁盘的页一样,每次读写都是按块操作。如果文件小于块大小,实际占用空间是按文件大小来算的。为了保证数据的安全性,每个块还会默认复制3 次,避免单点故障导致数据丢失。

这份 Hadoop 相关文档中不仅详细了DataNodeNameNode的工作原理,还有如何应对集群故障等内容。如果你对 Hadoop 系统有兴趣,了解 Block 的工作方式是挺有的。

你可以从这些资料中深入了解 Hadoop 的存储机制,了解数据的拆分、存储和复制过程,真心觉得对你之后的项目设计会有挺大的。
如果你做大数据相关的工作,或者需要优化存储和分布式管理,可以试着学习这些资源。