高容错、高吞吐、还能横向扩展,HDFS的设计理念就是为了大数据存储和的老大难问题。
主节点叫NameNode,负责记录谁存了啥;存储数据的是真正干活的DataNode。两者配合默契,读写数据不带卡顿。
文件一存进去,HDFS 立马就帮你复制多份,怕啥宕机?可靠性妥妥的。而且,像批任务,HDFS 简直就是量身定制,配合MapReduce那更是如虎添翼。
除了大数据,HDFS 在日志存储、归档备份方面也稳,适合那些“量大不怕多”的场景。你要是搞数据工程或者高校研究,读一读这个资源挺值的。
备份和恢复也有招,命令行工具全,和Hadoop 生态集成得还不错,像Hive、Sqoop之类的都能联动。
想深入了解分布式文件系统的话,下面这些文章也挺有料的,像是HDFS 分布式文件系统、JAVA 开发必备:HDFS这种,点进去看看也不亏。
如果你也在折腾大数据系统,是在找靠谱的底层文件系统,那HDFS确实是个不错的选择,架构清晰、资料也全,上手也不会太费劲。