高级特征工程II

高级特征工程的进阶玩法讲得挺细，尤其是一些靠数据本身衍生出来的统计特征、最近邻特征和矩阵分解，思路上都比较实战。像用groupby搞出来的均值、中位数，还能按 KNN 找邻居做交互特征，这些操作在比赛和业务里都挺常用的。

文档里提到的自动特征生成这块，也挺有意思。虽然没点名用的是哪几个工具，但看意思应该涵盖了像Featuretools、Kats、TSFresh那类能自动撸特征的库，适合你想少写点代码但又不想漏掉特征的人。

矩阵分解也讲到了，主要就是把原始稀疏矩阵压缩成一堆稠密的“隐因子”，这类特征对推荐系统或者 CTR 模型挺有用。注意点是它是有损的，不能乱用。

整体阅读感受还不错，语言不绕，例子也接地气。如果你做过竞赛或者线上系统，能马上想到能用在哪儿。

如果你正头疼怎么搞更多能提升模型的特征，不妨看看这篇高级特征工程 II，里面的方法不花哨但扎实。