韩佳炜的《数据挖掘 第三版》还挺经典的,基本算是入门+进阶的全能教材。内容从概念讲到实战,像数据清洗、聚类、分类算法这些,都讲得比较系统,例子也不少,通俗易懂,读起来不会太费劲。

书的英文名叫 Data Mining: Concepts and Techniques,作者是 Jiawei Han、Micheline Kamber 和 Jian Pei,业内大佬,书里有不少你工作中用得上的技巧。尤其是搞机器学习或做大数据项目的,这本书绝对值得常翻翻。

里面的数据准备章节也比较实用,像 数据清洗集成变换规约,都配了流程图和小案例,看一遍就能理出套路来。如果你做 ETL、数据预,那部分内容有参考价值。

而且这书背后的系列挺强的,The Morgan Kaufmann Series in Data Management Systems 里还有像 Joe Celko’s SQL 系列、数据建模多维数据结构这些拓展阅读,适合想搞清数据底层逻辑的人。

如果你平时用 MatlabSAS,想找点实战代码,那几个相关的资源我也顺便整理出来了,可以看看文末链接。

所以说,如果你刚入门数据挖掘,或者打算系统补补基础,这本书真心推荐,啃完你就比别人快一步了。