谷歌的 MapReduce、Bigtable、GFS,真的是搞分布式的老朋友们了,业内俗称“三驾马车”。它们仨配合起来,海量数据那叫一个顺手,基本就是现代大数据架构的老祖宗。你现在看到的 Hadoop、HBase,其实思路都从这儿来的。

GFS的设计比较有意思,走的是大文件+主从架构的路子。主节点管元数据,Chunkserver负责存储。一个块 64MB,容错靠多副本,写完就读一致性。嗯,接口也简单,追加写入、顺序读取,响应也快。

MapReduce是个计算模型,逻辑其实挺直白的。先Map阶段生成中间键值对,再Reduce聚合。系统自动分发任务、管并发、搞容错,开发者专注业务就行。比如统计日志里的热门词,用它就特省事。

Bigtable算是个列式存储的鼻祖了。数据按行、列族组织,支持时间戳多版本,挺适合需要查询历史记录的场景,比如用户行为追踪。它还依赖Chubby锁服务来搞一致性,水平扩展能力也不错,撑 PB 级数据没啥问题。

这三位配合起来,就能搭个稳定可靠的分布式系统架构。如果你在折腾 Hadoop,或者准备搞个可扩展的数据系统,真建议你把它们认真读一读。