Spark 的大数据部署方式挺多的,选起来容易让人头大。其实你可以从自己的资源调度需求来入手。Standalone 模式最简单,自己调度资源,用zookeeper
做容错,适合玩票或小团队。Spark On Mesos就比较灵活了,CPU
可以非独占,资源交给Mesos
管,省心不少。
Spark On Yarn蛮受欢迎的,是在 Hadoop 生态下混得风生水起。它支持动态加资源,但目前还只能走粗粒度资源调度,细粒度?等 YARN 再卷几年吧。想玩云部署的朋友,Spark On Cloud也挺香,像在AWS EC2
上跑 Spark,访问S3
那叫一个方便。
你要是对部署细节有兴趣,推荐几个文章看看,像《Spark on Yarn 模式部署指南》就讲得挺细,还有《大数据技术 SMACKApache 详解》,连Mesos
和Akka
都带着说了。部署之前最好搞清楚粗粒度和细粒度是啥,可以点点这条:http://192.168.10.201:8080。
如果你刚接触 Spark 部署,建议先试 Standalone 玩玩,搞清楚基本架构。如果团队里已经有 YARN 环境,直接上 Spark On Yarn 也没问题,资源调度会舒服不少。