来自 Ciao 购物平台的 评分、评论、商品类别啥的全都整理得比较清楚,用户的<年龄>、<性别>这些也有,做用户画像会省不少事。而且评论时间也有,想做时间序列推荐的朋友也能用上。 如果你在搞<内容推荐>或者<混合推荐>,里面的文本数据和商品分类信息就有用,稍微一下就能上模型了。哦对,数据体量也不算小,用来测算法稳定性也靠谱。整体来说就是个比较全能的推荐研究练手包。 要注意的是,评论有些地方是德语或其他语言,做 NLP 要先清洗下;另外,时间格式也要转一下,写代码的时候别忘了。 如果你刚入门推荐系统,这份数据集比较友好;要是老手了,也可以拿它做模型对比实验,测 RMSE 什么的也挺方便。
Ciao推荐系统数据集
相关推荐
Douban推荐系统训练数据集
豆瓣用户的评论数据,886026 条,数量还挺可观的,做推荐系统训练集合适。user、item、rating、type四个字段,分别是用户名、电影或书名、评分、类型。文件是csv格式,utf-8编码,读取也方便,丢进pandas里一行代码就搞定。
豆瓣的数据还不错,内容丰富,评分也比较真实。你想做协同过滤、矩阵分解这类算法,用这份数据挺合适的。不比 MovieLens 差多少,而且多了type这个字段,拿来做多模态推荐、分类推荐也能用上。
另外你要是想拓展下思路,也可以看看下面这几个数据集:MovieLens 的更经典一点,点这里就能下;还有像 新闻推荐、电商评论 这些也蛮值得一试的。
,al
算法与数据结构
0
2025-06-14
IMDB电影元数据集推荐系统入门
IMDB 的电影元数据集合,挺适合做推荐系统的入门练习。字段信息还挺全,像导演、演员、评分、票房这些你都能拿到,想搞点数据可视化、分类模型或者协同过滤,直接用就行。电影推荐系统的第一步,往往就是找一个结构还算干净的源头。movie-metadata.csv就挺合适,字段清楚、格式规整,嗯,拿来就能搞。像genres和imdb_score这种字段,用来做标签分类、评分预测都还不错。而且它不大,跑模型也快。数据量不算庞大,五千条左右吧,丢给pandas做挺顺手,响应也快。不像那种动不动几个 G 的大文件,加载都让人头大。如果你平时搞点儿Flask或Spark的项目,想临时搭个电影推荐的 Demo,
数据挖掘
0
2025-06-17
MovieLens 1M推荐系统数据集
MovieLens 1M 的数据集真的挺经典的,适合想研究推荐系统又不想从零开始搞数据的朋友。数据量刚好——100 万条评分记录,够你跑模型也不会让电脑冒烟。用户信息、电影信息全都有,拿来练手协同过滤再合适不过了。
里面的评分跨度从 1995 年到 2009 年,跨度长、内容全,做冷启动、做时间滑窗实验都挺方便。你可以试试用户协同过滤,比如找出跟你口味相似的影迷,看他们都在看啥,再给你推荐类似的。
物品协同过滤也蛮有意思。你喜欢某部片子,就找相似风格的电影继续推给你。像计算余弦相似度、Jaccard 系数这些,在这个数据集上跑起来都挺顺畅。
要是你想玩点高阶的,也可以上矩阵分解或者深度学习的模
spark
0
2025-06-14
基于Spark的电影推荐系统数据集
该数据集包含了推荐系统中常用的电影数据,可以用于基于Spark的电影推荐系统开发和研究。
spark
18
2024-04-30
Epinions数据集推荐系统验证用数据
推荐系统的数据集用来做项目的时候是个有用的资源,是像这样包含了用户评分和行为的大数据集,数据量挺大的。你可以用它来训练不同的推荐算法,比如协同过滤、矩阵分解之类的,效果比较。你也可以结合像Spark这样的分布式计算框架,数据时响应也快。是一个经典的推荐系统数据集,适合用来做算法验证。你还可以尝试将它与其他相关数据集(比如<MovieLens>或者<Lastfm>)结合使用,看看效果如何。 如果你正在做推荐系统的相关项目,这个数据集挺适合的,尤其是对于一些个性化推荐的场景。如果你有具体的算法方向,结合其他技术栈,比如 Flask + Spark 也能做个推荐系统原型。
算法与数据结构
0
2025-06-12
实时电影推荐系统项目源码和数据集
此项目包含实时电影推荐系统项目源码和数据集。
spark
12
2024-05-01
书籍评分数据集推荐系统练习用
书籍评分数据信息的数据结构比较干净,格式也比较规范,适合用来练练数据或者推荐系统相关的算法。嗯,数据里一共有 1 万本书,评分有几十万条,每本书基本都有 100 条左右的评论。用户数也挺多的,5 万多,最少每人评了两本,数据还算丰富。
评分数据是放在rating.csv里的,结构直观,三列:book_id、user_id、rating。你用pandas直接读进来就能,比如看看哪个用户打分最高,或者哪些书评分集中在 4-5 之间。
再来看read.csv,这个是标记用户读过哪些书的,用法也挺。可以和评分数据做个merge,判断某些书是不是常被读但没被评,挺适合做用户行为的。
最有意思的是book
统计分析
0
2025-06-17
用户评分数据集推荐系统练习专用
用户评分的三列结构:用户 ID、物品 ID、评分,简单但实用,尤其在做推荐系统的时候。评分区间是 0 到 5,结构清爽,上手快,适合用来练习协同过滤、聚类这种经典算法。用这个数据集,你可以快速搭建个性化推荐模型,比如用SVD预测用户喜欢的商品。想更进阶一点?可以丢到Hadoop或Spark环境里跑分布式,效率高,扩展性也不错。我比较常用它来测试模型效果,比如算个RMSE或MAE,评估推荐准确度也方便。而且用它来跑个时间序列,也能看出用户兴趣的波动,比如节假日、促销期有没有影响评分。数据预时,记得先清洗空值和异常值,评分太离谱的是误点或恶意操作。评分标准化也蛮重要,不然模型训练效果会受影响。如果
Hadoop
0
2025-06-18
MovieLens 数据集:推荐算法必备资源
超过 500M 的 MovieLens 数据集,为推荐算法研究和实践提供了丰富的数据支持,涵盖电影评分、用户属性等多个维度。
数据集包含六个文件,适用于不同规模的算法训练和测试,是推荐系统领域不可或缺的重要资源。
数据挖掘
18
2024-04-30