朱明教授的数据挖掘课本,理论扎实、实践贴地,讲得清楚,例子也比较接地气。你要是想搞清楚像分类、聚类、特征选择这些数据挖掘常用套路,这本书挺合适的。尤其对刚入门或者有点基础但想深入的同学,能帮你捋顺整个流程。
数据预讲得蛮细,从清洗、转换到规约全都带着讲。比如缺失值怎么填、异常值怎么搞,朱明教授给出了不少实用方法。像特征选择部分,也把过滤法
、包裹法
、嵌入法
这几种思路都拿出来讲了,场景和用法还挺明白。
建模部分包含了常见模型,比如决策树
适合做解释性强的任务,随机森林
适合抗干扰能力强的场景,神经网络
也没落下。每种模型都配了实战例子,说清楚了优劣和用在哪种业务上更合适。
模型验证这一块也没省,像交叉验证
、准确率
、F1 分数
这些指标怎么用,调参怎么做,全讲到了。还专门讲了些合规相关的东西,比如怎么用户隐私问题,这点挺难得。
要是你在做跟用户分群
、推荐系统
、行为预测
这些业务打交道,这本书能帮你补全认知漏洞。想深入的话,也可以顺手看看下面这些相关文章,像聚类与距离度量、支持度递减关联规则,都是实打实的干货。
如果你最近准备转数据岗,或者跟打交道比较多,可以拿这本书当参考,实用性挺强。建议配合 Python 代码练一练,效果会更好。