Amazon EMR大数据处理平台技术分享

亚马逊的AWS服务里，Amazon EMR算是批量数据里的老大哥了，适合海量数据那种，像日志、机器学习训练什么的都能搞。你只要把数据丢上去，它能自动跑 MapReduce、Spark 这些大数据框架，省事儿。

Elastic-MapReduce的玩法其实还挺灵活的。比如你平时在本地用 Hadoop，上云之后直接跑，响应也快，配置也不复杂。最常见的用法就是批数据、建数据湖、跑模型。

你如果平时搞 MATLAB 的，也能对接 AWS Athena，有专门的接口支持，配合起来还蛮顺的。还有一个资源是百万歌曲数据集，用 MapReduce 音乐推荐也挺好玩，数据挖掘的朋友可以看看。

另外像Elastic Stack和ACRA也都能搭配 AWS 的服务玩起来，一整套搞日志、舆情挖掘、评论解析，效率不低。

对了，如果你用 Amazon Linux，还有个专门编译的MongoDB 版本，也别错过了。兼容性还不错，不容易踩坑。

，如果你正好在搞大数据项目、或者有兴趣上手 MapReduce、Spark，那 Amazon EMR挺值得一试的。嗯，想练练手或是上线跑生产任务都没问题。

如果你刚开始玩 AWS，建议先看看EC2 的，搞清楚怎么部署服务会更顺一点。