数据仓库的一套原版资料,内容挺全,逻辑结构也清晰。基于银行 IT 系统场景,把 ETL、DW、OLAP、数据挖掘这些知识点串得比较顺,适合你深入理解数据流怎么走,怎么存,怎么。哦,对了,还有真实案例,比如广发银行怎么用 SAS 做行为计分和信用评估,蛮实用的。
ETL 的 ET部分讲得细,增量抓取、转换调度、监控点都有提,基本能还原你做一个数据加载系统的全过程。Informatica
、Datastage
这种老牌工具也有提,拿来对比现代工具也挺有意思。
DW 存储结构是走 ODS-DW 两层,老方案但还蛮经典的。面向主题、集成、不可删改这类特性都写得明明白白。内容还提到了结构化和非结构化数据的混存,给你打个底,后面扩展用 Hadoop 或大数据栈也容易衔接。
OLAP 和挖掘部分比较推荐。讲了 Cognos
、BO
、MicroStrategy
这些老一代 BI 工具,也提了 SAS 的建模方法,结合广发银行案例,怎么基于历史数据来做信用评分和额度调整,看完你就知道这类系统是怎么跑起来的。
如果你正好在做银行或者大型企业的 数据平台建设,可以拿来当个参考蓝本,思路、架构都还蛮有借鉴意义的。懒得看长文?我帮你找了几个相关文章,按需查阅:
如果你刚入门数据仓库,不妨先翻翻 ETL 那段;要做数据挖掘的,可以重点看 SAS 那部分,案例真的蛮不错。