真实用户的电影评分数据,适合用来做推荐系统训练,也适合练手数据项目。数据集叫movielens.zip,来源靠谱,是MovieLens平台整理的,有 1000 个用户对 1600 多部电影的评分。

评分推荐系统的经典数据里,movielens.zip算是比较小巧易用的。结构也清晰,users.datmovies.datratings.dat三张表,字段简明,不用费劲去清洗,直接上手。

你要是想搞个小型的推荐模型,比如用Pandas做协同过滤,或者用Flask搭个评分展示页面,这份数据就挺合适。嗯,响应快,训练也不吃资源。

我当时用它配合Spark MLlib跑过 ALS,效果还不错,推荐结果比较合理。如果你对大数据推荐系统有兴趣,可以看看这个相关项目:Flask+Spark+ALS+MovieLens 数据集电影智能推荐系统,结构清晰,流程完整。

另外,还可以参考这几个链接拓展玩法:

如果你是前端,还可以试试把推荐结果可视化一下,用echarts搞点图表,或者用Vue做个用户评分界面,交互感更强。

movielens.zip是个适合初学者和进阶用户的小数据宝库,想练推荐、、可视化都可以搞起来。