疫情初期微博的真实语料,挺适合做自然语言和数据挖掘模型训练的,尤其是你想搞点中文文本的情感、舆情监测这类应用。数据量还可以,噪声也比较真实,不是那种过度清洗过的“完美”数据,用来训练模型会更贴近实战。

2020 年初的微博数据,不少关于疫情的内容,文本情绪波动大,话题也集中,拿来做情感分类、话题聚类都蛮合适。是你要测试新模型效果,这种有时间标签、有热点背景的数据,比新闻摘要强多了。

你也可以顺手搭配一些好用的库,比如用jieba做中文分词,用sklearntransformers跑分类模型。数据方面注意下:有些文本会带点错别字、网络词,要么你提前做预,要么就把这当成鲁棒性测试的素材了,挺锻炼模型抗干扰能力的。

如果你是刚入门,可以先看看这篇《Python 自然语言的实践应用》,讲得还算清楚,跟微博文本这套数据结合练手正好。

另外也别错过这些资料,像统计自然语言综述学习爬虫和自然语言的入门指南,一边爬一边训,思路就清晰了。嗯,还有 MATLAB 的那套工具集,虽然偏冷门,但也挺有意思。

如果你搞过微博相关项目,那篇《微博应用中的数据挖掘技术》也能给你点启发。建议你搭建一个小项目跑一遍,数据是真实的,模型才好调。