零基础入门数据挖掘的特征工程任务里,异常值和特征构造讲得挺扎实的,尤其适合刚接触数据的前端或者产品同学。异常值这块,作者不只是讲概念,还带着你用箱型图实操一遍,配上代码示例,理解更容易。
合并训练集、构造使用时间和城市信息这些步骤,基本覆盖了树模型常见的特征构造套路,逻辑也挺清晰。线性模型那部分也有提到数据分布观察,算是比较贴地气的切入方式,不会搞得太玄乎。
建议你重点看下3.2.3 箱型图和4.1 特征构造这几节,代码可复用性还不错,适合搭个 baseline。数据导出这块直接用了.to_csv
,省事,适合快速调试。
如果你之前没怎么搞过数据,用这个练练手还蛮合适,顺便熟悉下异常值检测思路和特征构造的常见操作。