Hadoop大数据协同过滤推荐系统

基于 Hadoop 的大数据项目，协同过滤算法做得还挺实在的。数据量一大，传统方法容易卡壳，用上 Hadoop 的分布式就顺多了，MapReduce 的任务拆分也挺清晰。你如果搞过新闻推荐场景，应该能体会到用户兴趣变化快，这套思路能动态适配，挺贴地气的。

新闻平台的实时推荐，靠的就是协同过滤里的“你喜欢的别人也喜欢”。项目用的是UserCF和ItemCF的混搭，既考虑用户行为，也兼顾内容相似度，推荐出的结果更靠谱。系统构建上，Hadoop配合MapReduce任务流转，整个流程压测下来还挺稳。

另外，这项目不仅仅是代码，文档也比较全，像如何清洗新闻数据、怎么划分训练集测试集、权重怎么调，都说得清清楚楚，初学者也能上手。如果你习惯用Spark，也能照着改，逻辑都差不多。

顺便整理了几个类似资源，想深入可以一块看：

如果你正在做新闻类平台或者内容推荐，蛮推荐你看看这个项目。改改参数、套个前端界面，说不定就能上线用。