Hadoop 的大数据方式还挺有意思的,尤其是它的文件系统 HDFS,设计得蛮硬核。你可以把 PB 级别的大文件丢进去,照样跑得挺稳。HDFS 有点像一套聪明的仓库系统,用 NameNode 管账,用 DataNode 搬货,配合起来效率还挺高。
HDFS 的块存储机制比较适合超大文件。像视频、日志、数据备份这类动辄几十 GB 的文件,拆成 128MB 一块分给不同的DataNode
去存,读取的时候还能自动挑离你最近的节点,响应也快。
数据块的多副本机制香,默认每块会复制 3 份。万一哪台机器挂了,系统还能自救补块,不容易丢数据。你要做高可用存储,这机制还挺关键的。
要说能力,MapReduce这套东西虽然老,但在批量上还挺能打。Map 阶段原始数据,Reduce 阶段来个总汇,适合跑日志、推荐系统这些。写代码稍麻烦点,不过你用Hive
或者Pig
配合下也能轻松些。
而且 Hadoop 不是单打独斗,它背后那票兄弟——Spark、HBase、Hive啥的,都是大数据的好帮手,能查能算还能搞实时。
如果你在搭建分布式存储系统,或者准备超大规模数据,不妨了解一下 Hadoop 体系。哦对,HDFS Comics那篇文章也不错,讲得还蛮通俗。