天猫的用户重复购买预测项目,数据量不小,维度也挺多,适合想深入用户行为建模的你玩一把。原始数据来自双十一和之前 6 个月的用户日志,要干的事也清楚——预测未来 6 个月的复购情况。
用户行为的数据挺全面,像点击
、加购
、收藏
、成交
这些全都有。你可以先做特征工程,从用户和商家之间的交互里挖点有用的信息出来,比如活跃天数、访问频率啥的,还能加个时间窗口看看周期性。
训练模型方面用的也是比较主流的分类模型,像逻辑回归、随机森林、XGBoost这些都可以试一试,看哪个效果好。嗯,建议你也别太依赖默认参数,调参之后提升还挺。
整个流程下来,像是一个小型的推荐系统入门练手项目。数据预、特征提取、建模预测一套流程走下来,对实际电商项目挺有的。响应也快,代码也简单,跑起来基本没什么坑。
如果你对用户行为预测感兴趣,或者打算做点偏业务的机器学习项目,那这个资源可以直接上手。顺便附上几个相关文章:
哦对了,模型预测出来的概率别直接当“是否复购”的标签,记得根据业务设定一个阈值,比如0.5
或者更高,控制下假阳率。