Hadoop 的 HDFS 分布式文件系统,挺适合搞大数据存储的,配上 Ambari 管理界面,运维也轻松不少。
先电的大数据平台用的就是这一套思路,从 Hadoop 到 YARN、再到 Ambari,全流程打通,部署起来稍微复杂点,但文档里步骤挺清楚,跟着来基本没坑。
平台支持结构化、非结构化数据的接入,像日志、销售报表那种都能搞。数据量大的话,用MapReduce
写批脚本,性能还不错。
讲真,Ambari 那套图形化界面对新手蛮友好的,安装、配置都能可视化操作,配合SSH
、NTP
这些基础服务,整个平台部署完还挺稳的。
有意思的是它的版本演进,从v1.3
到v2.2
功能一点点加,像安全性增强、组件升级什么的也都覆盖了。你要是对 CDH 或 FusionInsight 熟,切过去也挺顺。
如果你做金融、电商、医疗数据这种,对平台的稳定性和扩展性要求高,这份手册可以好好看看,干货不少,踩坑指南也在里面。