大数据生态的基础框架,Google 家的几篇论文还挺经典的,MapReduce 那篇讲怎么高效海量数据,思路清晰。BigTable 那篇也不错,重点是如何搞定大规模数据的快速存取,思路实用。HadoopHBase相关的中文书,像董西成的那本《Hadoop》和《HBase 权威指南》也蛮值得翻翻的,尤其是刚入门或者要做系统搭建的朋友。

想深入了解MapReduce的,可以看看这篇大数据:Hadoop MapReduce 基础和算法设计》,讲得比较系统,还带算法设计,代码例子也有,不难懂。

Google 的经典三篇论文合集也推荐收藏下,GFS、BigTable、MapReduce这三篇基本奠定了现代大数据架构的底子,嗯,强烈建议通读一遍,尤其是想了解底层原理的你。

想搭建一整套大数据平台的,可以看看Ambari 整合的 Hadoop、Spark、HBase、Phoenix 方案,用 Ambari 做组件管理确实省事不少,界面友好,出错也好排查。

实战方面,Hulu 的 HBase 应用实践也值得一看,里面讲了他们怎么优化 HBase 性能、怎么做多租户,挺有借鉴意义的。

如果你刚接触大数据,建议从MapReduceHadoop开始啃,理解分布式和数据分片是关键;要是你准备上线应用,HBase 和 Ambari 的实战经验就别错过了。