数据挖掘的百科全书类资源,内容真不算轻,挺系统挺硬核的。这本英文书,覆盖了从数据预到关联规则挖掘、从聚类到异常检测,基本全套流程,理论+案例都有,适合想把底层逻辑摸清楚的同学。

英文原版的好处就是——没被“加工”过,原汁原味,多术语解释得比较细,也不乏当年的研究成果,像是Sequential Pattern MiningOLAP这些点都有详细展开。

数据仓库部分讲得也比较扎实,从 ETL 流程到索引优化,设计思路跟实际操作都有提。尤其对要在大数据背景下做实时的人来说,里面关于云计算下的数据那块内容还蛮实用。

压缩包里主文件是Encyclopedia.of.Data.Warehousing.and.Mining.Second.Edition.pdf,挺厚的,可以按章节慢慢啃。别忘了看看readme.txt下载.HTM,一般会有些使用提示和文件结构。

如果你正打算深入了解数据挖掘的底层逻辑,或者做研究、写论文卡在理论部分,不妨下载看看。顺便推荐几个相关的扩展阅读:

哦对了,这书不太适合零基础直接上手,比较适合已有项目经验或者技术背景的人看。