点击率预估的练手神器非 Avazu CTR 数据集莫属。大规模的广告点击数据,字段也比较丰富,像用户设备、广告类型、时间戳都有,挺适合用来玩特征工程。
数据集里的train.gz
和test.gz
文件,分别对应训练和验证,标签也挺清晰:1 就是点击,0 就是没点。
特征多但大多是离散的,用LabelEncoder
配合OneHot
就能上手,完跑个LightGBM
、XGBoost
之类的模型,效果还不错。
你还可以加点花活,比如时间特征抽一抽,用户行为拼一拼,命中率直接翻倍都不夸张。
数据量确实有点大,建议先采样个小集试水,别一上来全量跑,内存直接爆了可不好玩。
适合你刚开始接触 CTR 场景,又想玩点机器学习模型,不想写太多代码也行,套个 baseline 直接改改也能出不错的结果。
如果你对推荐系统、广告点击预估感兴趣,那这个数据集真的挺值一试。