IMDB 的电影元数据集合,挺适合做推荐系统的入门练习。字段信息还挺全,像导演、演员、评分、票房这些你都能拿到,想搞点数据可视化、分类模型或者协同过滤,直接用就行。
电影推荐系统的第一步,往往就是找一个结构还算干净的源头。movie-metadata.csv就挺合适,字段清楚、格式规整,嗯,拿来就能搞。像genres
和imdb_score
这种字段,用来做标签分类、评分预测都还不错。
而且它不大,跑模型也快。数据量不算庞大,五千条左右吧,丢给pandas
做挺顺手,响应也快。不像那种动不动几个 G 的大文件,加载都让人头大。
如果你平时搞点儿Flask
或Spark
的项目,想临时搭个电影推荐的 Demo,扔这个数据集进去,数据清洗省不少事。你要是更深入点,还可以搭配用下MovieLens或者TMDB的数据试试看。
提醒一下,字段gross
有点缺失,要下,不然训练模型时容易出锅。推荐系统想走协同过滤的话,也建议你再手动加个用户评分数据,不然单靠这份数据略显单薄。
如果你是刚入门,想快速上手电影推荐系统,那这个数据集还蛮推荐的。路径就叫movie-metadata.csv
,名字挺直接,清洗之后直接喂模型,体验感还不错。