数据湖在商务智能里,可真是个效率神器。它能存结构化、非结构化甚至半结构化的数据,像是你日常用的客户资料、社交评论、还有外部 API 抓来的数据,全都能往里丢。最妙的是,不用非得提前设定格式,想咋存咋存,灵活性真高。
德勤的做法就挺值得参考,他们搞了一个云服务能力框架,啥都有:云迁移、ERP、CRM……还有云平台设计和业务咨询服务。你要是正考虑搞大数据架构,完全可以借鉴他们的全链路思路,效率提升还挺的。
数据湖的技术架构也不复杂。数据从各种渠道来,像用Sqoop
抽结构化数据、MapReduce
批、PIG
做数据清洗,扔到HDFS
里。要查数据?用HCatalog
。要跑?上PIG
和Hive
就行,响应也快。
商务智能里,数据湖主要干啥?说白了就是撑起底层的数据平台。你用OLAP
做多维、搞预测模型或者嵌入式,它都能顶得住。数据可视化、趋势,这类场景它也挺拿手。
哦对,还有一点挺重要的,数据湖对于不同平台的支持也蛮到位,移动端、浏览器、甚至WebService
接口都没问题,扩展起来也方便。界面友好,体验感还不错。
如果你正在搭建企业的数据体系,建议直接把数据湖作为底座来设计,上层套个 BI 工具,比如Power BI、Tableau之类的,组合起来真香。如果你数据来源多、结构杂,数据湖能帮你省不少麻烦。