经典的《Applied Predictive Modeling.2013》的模型还挺系统,尤其适合刚开始接触机器学习和数据挖掘的同学。书里的例子都挺贴地气的,多都能直接拿来用,省得你到处找资料瞎拼凑。
前面几章重点说了数据预和特征选择,像数据归一化、缺失值填补这些,讲得挺细的。不管你用的是 Python 还是 R,里面的方法都能通用,用起来还挺顺手的。
后半段是重点,模型评估和调参部分对新手挺友好,交叉验证
、ROC 曲线
这些讲得比较清楚。你可以对照自己项目里的模型,试着复现一下,收获不小。
如果你还在为怎么入门建模发愁,这本书可以算是入门到进阶的桥梁。哦对了,还可以搭配下面这两篇文章一起看:
数据挖掘机器学习讲了不少概念,有助于建立基础框架。
机器学习常用开源数据集及数据挖掘、机器学习、深度学习的区别这个嘛,看完之后你就不会再把几个概念混一起了。
如果你打算撸个模型项目,或者在面试前突击复习,这本书拿来当主线还蛮合适的。