数据挖掘的老牌经典《数据挖掘:概念与技术》,内容讲得挺全,从定义、功能到预细节,讲得都还挺落地。是像**关联**、**聚类**这些概念,不光有解释,还搭配了实际场景,读起来不费劲。你要是搞数据、想系统学数据挖掘,这本书真挺值得翻的。
数据挖掘的定义挺有意思,说白了就是从一堆乱糟糟的数据里,把你没发现但其实挺重要的规律挖出来。像那种零售系统里看顾客买完牛奶就会顺手拿包面包的例子,就是**关联**用得溜。
挖掘功能那块内容也蛮丰富,分类预测、聚类、局外者都提到了,还结合了不少现实场景。比如网站、营销策略,这些用起来真挺实用。
讲到数据仓库和OLAP时,内容更偏系统架构一点,但写得也不枯燥,像星形模式、雪花模式这些模型讲得比较清楚,适合需要理解后端数据结构的前端朋友看看。
预那一章也关键,像数据清洗、数据规约这些内容,搞 BI 的应该都得过一遍。尤其提到的数值规约和维度规约,能大大提升后面建模效率。
顺便推荐几篇相关文章,想更深入了解关系数据库的话,可以看看:
如果你打算做数据、BI、数据可视化之类的项目,这书可以当工具书放手边,查着用比较方便。