先电的 IaaS 平台加 Ambari 的组合,真的挺适合做毕业设计或者小型企业搭建大数据环境的。两台物理机,一台当controller,一台跑compute,结构不复杂,部署也不折腾,脚本一跑基本就起来了。嗯,IaaS 那块是典型的 OpenStack 逻辑,没啥坑。

比较有意思的是大数据平台这块。基于Ambari做了二次开发,安装过程还蛮顺手的。你只要把masterslaver1的云主机准备好,基本按着安装向导一路点点点就能搞定。集群搭好以后,界面上看任务状态、查看依赖也都清清楚楚,哪儿慢了也能一眼看出来,调优啥的更方便。

HadoopHDFS那部分其实是老朋友了,这个平台用的也是这一套。数据用的MapReduce,适合做离线批。如果你要结构化数据,Hive就能派上用场,SQL 风格的查询,不懂写代码也能跑报表。

整个设计思路清晰,平台之间衔接也挺自然的。说实话,适合用来练手,也适合用来搞点实际业务。如果你在找个又能学东西又能跑通流程的资源,这个组合挺值得一试。

如果你对大数据部署有点底子,又不想从零开始折腾,可以先看看这些参考资源,像Ambari 集成 YARNHadoop 集群搭建这些,顺着搭一遍思路就更清楚了。