来自 Ciao 购物平台的,是个在推荐系统圈子里蛮有名的老牌数据集了。它最大的亮点是评论内容丰富,除了评分,还能看到用户怎么说商品。像要做<协同过滤>或者<情感>的项目,这个数据集挺合适的。

评分、评论、商品类别啥的全都整理得比较清楚,用户的<年龄>、<性别>这些也有,做用户画像会省不少事。而且评论时间也有,想做时间序列推荐的朋友也能用上。

如果你在搞<内容推荐>或者<混合推荐>,里面的文本数据和商品分类信息就有用,稍微一下就能上模型了。哦对,数据体量也不算小,用来测算法稳定性也靠谱。整体来说就是个比较全能的推荐研究练手包。

要注意的是,评论有些地方是德语或其他语言,做 NLP 要先清洗下;另外,时间格式也要转一下,写代码的时候别忘了。

如果你刚入门推荐系统,这份数据集比较友好;要是老手了,也可以拿它做模型对比实验,测 RMSE 什么的也挺方便。