朱明教授的数据挖掘课本,理论扎实、实践贴地,讲得清楚,例子也比较接地气。你要是想搞清楚像分类、聚类、特征选择这些数据挖掘常用套路,这本书挺合适的。尤其对刚入门或者有点基础但想深入的同学,能帮你捋顺整个流程。

数据预讲得蛮细,从清洗、转换到规约全都带着讲。比如缺失值怎么填、异常值怎么搞,朱明教授给出了不少实用方法。像特征选择部分,也把过滤法包裹法嵌入法这几种思路都拿出来讲了,场景和用法还挺明白。

建模部分包含了常见模型,比如决策树适合做解释性强的任务,随机森林适合抗干扰能力强的场景,神经网络也没落下。每种模型都配了实战例子,说清楚了优劣和用在哪种业务上更合适。

模型验证这一块也没省,像交叉验证准确率F1 分数这些指标怎么用,调参怎么做,全讲到了。还专门讲了些合规相关的东西,比如怎么用户隐私问题,这点挺难得。

要是你在做跟用户分群推荐系统行为预测这些业务打交道,这本书能帮你补全认知漏洞。想深入的话,也可以顺手看看下面这些相关文章,像聚类与距离度量支持度递减关联规则,都是实打实的干货。

如果你最近准备转数据岗,或者跟打交道比较多,可以拿这本书当参考,实用性挺强。建议配合 Python 代码练一练,效果会更好。