豆瓣用户的评论数据,886026 条,数量还挺可观的,做推荐系统训练集合适。useritemratingtype四个字段,分别是用户名、电影或书名、评分、类型。文件是csv格式,utf-8编码,读取也方便,丢进pandas里一行代码就搞定。

豆瓣的数据还不错,内容丰富,评分也比较真实。你想做协同过滤矩阵分解这类算法,用这份数据挺合适的。不比 MovieLens 差多少,而且多了type这个字段,拿来做多模态推荐、分类推荐也能用上。

另外你要是想拓展下思路,也可以看看下面这几个数据集:MovieLens 的更经典一点,点这里就能下;还有像 新闻推荐电商评论 这些也蛮值得一试的。

all_data.csv比较适合入门和中级练手,格式清晰,字段够用。数据量大但不夸张,起来还算轻松。如果你正好在做推荐系统,不妨拿来跑几轮看看效果。