大数据的核心利器——Hadoop,扩展性强、扛压能力也不错,适合那种动不动就几个 T 起步的场景。
Admaster 数据挖掘总监写的这篇文章算是比较经典的入门级资源了,讲得清楚,内容也扎实。如果你刚接触 Hadoop,或者想搭一套靠谱的大数据架构,可以先看这个。
Hadoop的优势挺的:计算分布式,节点挂了也不怕,性价比高。尤其是和Spark
、Hive
这些组合起来,大批量日志、用户行为数据,效率那是杠杠的。
文章里也顺带讲了下大数据的背景,比如 IDC 那组 1.8 万亿 GB 的数据预测,虽然现在看着不稀奇,但放在 2011 年,可是吓人的大数。
如果你想继续深入,推荐几个实战资料:
- Hadoop 大数据与挖掘实战——案例多,适合边看边敲
- Spark 快速大数据入门——和 Hadoop 配合用挺合适
- Rhadoop: 解锁大数据潜能——R 语言用户也能玩转大数据
如果你对物联网
或地理信息
这块感兴趣,还有:
嗯,Hadoop 虽然老牌,但还蛮耐打的。如果你正好要搭建大数据平台,不妨从它开始入手,社区成熟,坑也少点。