短信内容的 NLP 数据集,挺适合用来练手做分类模型的。

公开可用的SMS Spam Collection数据集,消息都带标签,是不是垃圾短信一目了然。你可以直接拿来做二分类,模型跑起来也快。

消息内容都是英文,清洗也方便,最基础的文本预都能练到,比如tokenizestop words这些。适合用朴素贝叶斯SVM甚至LSTM试一圈。

数据量不算大,初学者不会跑崩机器,老手也能快速试模型思路。嗯,还能配合TF-IDFword2vec做特征提取,挺灵活的。

顺带一提,这篇文章了不少类似的开源数据集,想扩展数据源的可以看看。

如果你最近正好在练NLP 文本分类,这个数据集还挺合适的,干净、标注清晰,代码调起来也爽。