高级特征工程的进阶玩法讲得挺细,尤其是一些靠数据本身衍生出来的统计特征最近邻特征矩阵分解,思路上都比较实战。像用groupby搞出来的均值、中位数,还能按 KNN 找邻居做交互特征,这些操作在比赛和业务里都挺常用的。

文档里提到的自动特征生成这块,也挺有意思。虽然没点名用的是哪几个工具,但看意思应该涵盖了像FeaturetoolsKatsTSFresh那类能自动撸特征的库,适合你想少写点代码但又不想漏掉特征的人。

矩阵分解也讲到了,主要就是把原始稀疏矩阵压缩成一堆稠密的“隐因子”,这类特征对推荐系统或者 CTR 模型挺有用。注意点是它是有损的,不能乱用。

整体阅读感受还不错,语言不绕,例子也接地气。如果你做过竞赛或者线上系统,能马上想到能用在哪儿。

如果你正头疼怎么搞更多能提升模型的特征,不妨看看这篇高级特征工程 II,里面的方法不花哨但扎实。