大数据的核心利器——Hadoop,扩展性强、扛压能力也不错,适合那种动不动就几个 T 起步的场景。

Admaster 数据挖掘总监写的这篇文章算是比较经典的入门级资源了,讲得清楚,内容也扎实。如果你刚接触 Hadoop,或者想搭一套靠谱的大数据架构,可以先看这个。

Hadoop的优势挺的:计算分布式,节点挂了也不怕,性价比高。尤其是和SparkHive这些组合起来,大批量日志、用户行为数据,效率那是杠杠的。

文章里也顺带讲了下大数据的背景,比如 IDC 那组 1.8 万亿 GB 的数据预测,虽然现在看着不稀奇,但放在 2011 年,可是吓人的大数。

如果你想继续深入,推荐几个实战资料:

如果你对物联网地理信息这块感兴趣,还有:

嗯,Hadoop 虽然老牌,但还蛮耐打的。如果你正好要搭建大数据平台,不妨从它开始入手,社区成熟,坑也少点。