大数据在行业云平台上的建设方式,真的挺值得一聊的。像 AWS 的EMR,一键部署,集成Spark、Flink都没问题,调资源也灵活,用API
自动扩容都方便。微软的HDInsight也还不错,Hadoop、Hive那一套都支持,还能搭配Azure Data Lake来搞数据湖,适合搞精细的场景。
阿里云的MaxCompute更偏向于海量结构化数据,直接就能用 SQL 开整,不用自己搭集群,省事不少。要是你更习惯 Hadoop 生态,也可以用E-MapReduce,像Kafka、Flink这些组件都能集成进来,弹性扩展还挺灵活的。
百度云的BMR相对低调,支持Spark和HBase没问题,但要整点复杂组件就得接入他们的 BOS 接口。哦,对了,它还支持Kerberos,搞安全认证方便些。
你要是正在做大数据平台选型,可以先摸清楚自家数据量有多大、是不是实时场景多,再看看预算和人力资源。有钱有团队,自己搞 E-MapReduce 玩得开;要省心省人力,直接上 MaxCompute 也挺香的。
顺便贴几个实用资源,搭环境、补安全知识、搞数据流,点进去能省不少试错成本: