数据仓库与数据挖掘的复习资料,内容挺系统,讲得也够细,适合准备考试或者复盘知识点用。像OLAP、关联规则这些概念,不只是提了名词,还讲了原理和应用场景,看完基本就有数了。嗯,而且它把星型结构、雪花型结构的优缺点都列出来了,比较少见,挺实用的。
数据仓库的设计原则讲得蛮清楚,什么面向主题、集成、稳定性这些,一开始就点到重点。还有Inmon的定义,解释得挺直白,不拐弯抹角。对比操作型数据库的方式也挺直观的,能帮你更快上手项目。
OLAP那块讲了粒度的概念,简单说就是数据细不细,细的话你能得更精,但数据也多。比如你要用户一天点了几次菜单,就得粒度细;但你只是看月活,粗点反而更快。理解这个后,建表就不容易出坑了。
数据挖掘这块,说了怎么从一堆乱七八糟的数据里搞出有用信息,比如先数据清洗,去掉错的,再做模式识别。用到的关联规则也提了常用指标:最小支持度
、最小置信度
,你用Apriori
之类的算法时就知道咋配参数了。
结构上也没少讲,像星型模型和雪花模型,还有ROLAP、MOLAP、HOLAP这三种技术。星型模型用得多,简单直观,但字段一多容易膨胀;雪花型更节省空间,但查询速度要注意。选哪种看项目体量和团队熟练度。
如果你最近在准备考试、面试,或者刚好在搞 BI 系统,这份资料你可以先过一遍,捋清概念;实操部分就可以照着这些关键词再去深挖,效率更高。