数据仓库的核心,就是把来自不同地方的数据整合成一个“统一大脑”。嗯,挺像写前端时,把组件状态汇总到一个大状态管理库一样,方便后续。你在搞数据挖掘之前,基本都会先来一套这个流程:数据清理、数据集成、数据变换。这些听着高大上,其实就像格式化接口数据、合并字段、统一命名那一套操作,蛮实用的。
有了数据仓库,接下来你就能用OLAP来做各种维度的,比如用户在哪个地区下单最多、哪天的流量最高。它的特点就是查询快、结构清晰,像前端里的缓存+图表那种组合拳,效率飙升。
如果你对数据挖掘感兴趣,建议看看下面这几个资源,写得还不错,基本该讲的都讲到了:
- 数据仓库、OLAP 和数据挖掘技术指南,适合刚入门的你
- 多维数据模型数据仓库与数据挖掘综述,讲得比较细
- 数据仓库与 OLAP 概述,结构清晰
- OLTP 与 OLAP 数据仓库比较,对比蛮有用
如果你平时做报表、BI 系统比较多,这些概念和工具肯定用得上,早点熟悉上手会省不少坑。