大公司的 Hadoop 部署经验,真的是值得一看。eBayFacebook这些级别的玩家,怎么用 Hadoop 海量非结构化数据?嗯,看完你会发现,多痛点也遇到过,思路也不复杂。

Hadoop 的分布式能力,最适合数据量一大就头疼的项目。像日志、用户行为挖掘这些活,普通数据库还真扛不住。文章里的案例就挺实用的,比如 Infchimp 是怎么搭配自研工具让 Hadoop 稳定跑的,思路值得借鉴。

部署时踩坑的点也讲得比较细,比如资源调度、任务失败重试这些细节,多教程都不会提。Facebook 那段讲 MapReduce 优化的方式,讲得也比较落地,不是那种飘在天上的架构图。

,如果你正在搭建 Hadoop 集群,或者准备上大数据,强烈建议你读一读这篇文章,再去看官方文档,效果翻倍。尤其是你想搞清楚 Hadoop 到底适不适合你们的业务场景,这几家公司的实践有参考价值。

顺带也推荐几个相关资源:Hadoop 与 ZooKeeper 部署蛮适合入门;伪分布式部署指南可以先练练手。