Ciao推荐系统数据集

来自 Ciao 购物平台的，是个在推荐系统圈子里蛮有名的老牌数据集了。它最大的亮点是评论内容丰富，除了评分，还能看到用户怎么说商品。像要做<协同过滤>或者<情感>的项目，这个数据集挺合适的。

评分、评论、商品类别啥的全都整理得比较清楚，用户的<年龄>、<性别>这些也有，做用户画像会省不少事。而且评论时间也有，想做时间序列推荐的朋友也能用上。

如果你在搞<内容推荐>或者<混合推荐>，里面的文本数据和商品分类信息就有用，稍微一下就能上模型了。哦对，数据体量也不算小，用来测算法稳定性也靠谱。整体来说就是个比较全能的推荐研究练手包。

要注意的是，评论有些地方是德语或其他语言，做 NLP 要先清洗下；另外，时间格式也要转一下，写代码的时候别忘了。

如果你刚入门推荐系统，这份数据集比较友好；要是老手了，也可以拿它做模型对比实验，测 RMSE 什么的也挺方便。