高级特征工程的进阶玩法讲得挺细,尤其是一些靠数据本身衍生出来的统计特征、最近邻特征和矩阵分解,思路上都比较实战。像用groupby
搞出来的均值、中位数,还能按 KNN 找邻居做交互特征,这些操作在比赛和业务里都挺常用的。
文档里提到的自动特征生成这块,也挺有意思。虽然没点名用的是哪几个工具,但看意思应该涵盖了像Featuretools、Kats、TSFresh那类能自动撸特征的库,适合你想少写点代码但又不想漏掉特征的人。
矩阵分解也讲到了,主要就是把原始稀疏矩阵压缩成一堆稠密的“隐因子”,这类特征对推荐系统或者 CTR 模型挺有用。注意点是它是有损的,不能乱用。
整体阅读感受还不错,语言不绕,例子也接地气。如果你做过竞赛或者线上系统,能马上想到能用在哪儿。
如果你正头疼怎么搞更多能提升模型的特征,不妨看看这篇高级特征工程 II
,里面的方法不花哨但扎实。