TREC2006 的中英文邮件数据集,挺适合用来练手垃圾邮件分类。数据量不算小,格式也比较规整。你用 Python 或者 MATLAB 搞机器学习都挺方便。嗯,尤其是做贝叶斯分类、SVM 啥的,拿它做实验刚刚好。顺带说一句,数据本身就来自国际比赛,质量还不错。