Hadoop 学习用的假数据,还挺好用的,适合入门推荐系统的朋友。movies.datratings.datusers.dat这三份文件基本能模拟一个完整的电影推荐流程。数据结构不复杂,字段也比较清晰。

文件里的格式都比较统一,比如ratings.dat一行包含用户 ID、电影 ID、评分和时间戳,读起来不麻烦,用MapReduce或者Spark都挺顺的。你想搞平均分、热门电影统计,或者训练个推荐模型,数据都够用了。

movies.dat里有电影 ID、标题、类型,拿来做内容也不错。你可以抓出科幻片、爱情片啥的,配合用户画像做个性推荐。而users.dat就记录用户基本信息,比如年龄、性别这些,能帮你搭出用户标签体系。

这些数据量不小,放到HDFS里跑任务正合适。你可以试试用Hadoop Streaming做点 ETL,比如拆字段、清洗非法数据,体验下分布式计算的流程。

哦对了,如果你想看这些数据长啥样,可以从网上下,比如这里就有一套完整的。别忘了,格式虽然是.dat,其实用split就能直接拆开,结构还是清楚的。

如果你刚上手 Hadoop,想找点靠谱的练习数据,这三份假数据还真挺合适的。结构清晰、使用场景真实,拿来练手再合适不过了。