掌握特征工程的基础知识与应用技巧,提升机器学习模型性能。
特征工程实战指南
相关推荐
高级特征工程II
高级特征工程的进阶玩法讲得挺细,尤其是一些靠数据本身衍生出来的统计特征、最近邻特征和矩阵分解,思路上都比较实战。像用groupby搞出来的均值、中位数,还能按 KNN 找邻居做交互特征,这些操作在比赛和业务里都挺常用的。
文档里提到的自动特征生成这块,也挺有意思。虽然没点名用的是哪几个工具,但看意思应该涵盖了像Featuretools、Kats、TSFresh那类能自动撸特征的库,适合你想少写点代码但又不想漏掉特征的人。
矩阵分解也讲到了,主要就是把原始稀疏矩阵压缩成一堆稠密的“隐因子”,这类特征对推荐系统或者 CTR 模型挺有用。注意点是它是有损的,不能乱用。
整体阅读感受还不错,语言不绕,
算法与数据结构
0
2025-07-05
化繁为简:特征工程轻松上手
化繁为简:特征工程轻松上手
无需复杂操作,简单几步,轻松处理数据,实现高效特征工程。
算法与数据结构
14
2024-05-19
特征工程的精华汇编
这本书籍非常适合初学者,涵盖了特征预处理的重要内容。
算法与数据结构
12
2024-07-15
PowerDesigner数据库逆向工程实战指南
PowerDesigner数据库逆向工程实战指南
这份指南将带您逐步完成使用PowerDesigner从数据库导入数据的全过程,清晰的图文说明确保您轻松理解每个步骤。
连接数据库: 打开PowerDesigner,创建一个新的数据模型。选择您想要连接的数据库类型,并输入连接信息,例如数据库服务器地址、用户名和密码。
选择导入对象: 成功连接数据库后,您可以选择要导入的数据库对象,例如表、视图、存储过程等。
自定义导入选项: PowerDesigner允许您自定义导入选项,例如选择要导入的表结构信息、定义代码生成规则等。
生成数据模型: 完成设置后,PowerDesigner将根据您选择的选项
MySQL
11
2024-05-28
Datawhale从零开始特征工程实践
Datawhale 的特征工程打卡内容,思路清晰还挺实用。尤其是对特征的取舍总结,像seller、offertype这些干扰项直接剔除,干脆利落。数字特征和类别特征也都分好了,想上手建模的你可以直接用这套模板试水。
数据挖掘
0
2025-06-24
Python数据分析与特征工程实战基于实际案例的数据处理技巧
当前,数据分析已广泛渗透各行各业,特别是以Python为工具的数据分析和挖掘正日益流行。然而,数据处理仍是数据分析和挖掘中最为耗时的环节之一。精通Python进行高效数据处理,显著提升数据分析和挖掘的效率。《Python数据分析与特征工程实战:基于实际案例的数据处理技巧》作为Python数据清洗实战入门课程的升级版本,以实际案例数据为教学对象,涵盖征信、电商、零售等领域。本课程深入浅出地解析Python数据处理和特征工程在实际项目中的应用,适合希望深入学习数据处理的学习者。课程内容详实,代码可读性强,实操性强,有助于解决工作和项目中的各类数据处理问题。课程目标包括熟悉数据处理流程和方法,熟练运
数据挖掘
20
2024-08-04
Feature Engineering Tips特征工程技巧合集
功能工程的小技巧合集,用起来真的是挺方便的!每一期聚焦一个点,讲得也比较细,适合你想在模型效果上更进一步的时候翻一翻,灵感立马就来了。作者阿 Sam 分享的内容,都是实战中总结出来的,感觉蛮接地气。比如刚开头讲到的特征无量纲化,不绕弯子,直接甩你三种常用方法和对应的包名,试一试就能上手。
内容已经更新到第 28 期了,按专题打包,阅读起来顺。像离散化、数据挖掘这些也都有覆盖,思路清晰,而且文中还贴了数据集链接,能直接用着练手,这点我觉得还挺实用的。
如果你在做模型调优,或者平时对特征工程这块感觉没那么熟,那真的建议你关注下《SAMshare》公众号,和作者直接交流也方便。有时候灵光一闪的点子,
数据挖掘
0
2025-06-25
Adult数据集特征工程与建模实践
使用Adult 数据集来如何通过特征工程在复杂的现实世界中建模真的挺有趣的。你可以借助转换器提取特征,快速提升模型的准确性,是当你面临类似分类任务时。它的特征包括年龄、教育、婚姻状态等,这些都能好地反映现实中的各类模式。对于想深入了解数据预和特征提取的同学来说,Adult 数据集无疑是一个好的入门工具。你可以用它去尝试不同的机器学习算法,看看哪种最能优化你的结果。哦,如果你有兴趣,下面这些相关资源也不错,你扩展对数据集的理解。比如你可以看看iris 数据集,它也挺适合进行数据挖掘实验的。在进行建模时,不要忘了数据质量对最终效果的影响。使用Adult 数据集时,你会发现一些预步骤能够大大提升模型
算法与数据结构
0
2025-07-01
Matlab 中 SMOTE 代码 | 高级特征工程技术
SMOTE 代码演示了创建新特征、检测异常值、处理不平衡数据和估算缺失值的先进特征工程技术。
使用 SMOTE 重新采样不平衡数据
使用深度特征合成创建新特征
使用迭代输入器和 CatBoost 处理缺失值
使用 IsolationForest 进行异常值检测
Matlab
15
2024-04-30