电子病历的信息抽取工作里,命名实体和实体关系的整理真的挺重要的。这份语料库挺有料的,标注得也够细,像是症状药物名称检查项目这类实体,还有它们之间的因果、对应等关系,全都一网打尽。

中文病历的标注说难不难,说简单也不简单。这份资料的好处是有医生一起参与规范制定,标注的一致性也还不错——实体一致性有 0.922,关系的也有 0.895,靠谱,后续搞模型训练也不容易出锅。

如果你之前折腾过NER或者RE任务,应该懂这个资源多实用。想训练医疗文本模型,或者搞临床决策支持系统,直接拿来用就顺手,格式清晰,文本量也够——992 份病历,量不大不小,调模型刚刚好。

而且这套东西也适合跟自然语言的一些工具结合,比如BiLSTM-CRF结构啊,或者预训练模型做微调啥的。再往大了说,做个医疗知识图谱或者个性化推荐系统啥的,也挺合适。

你要是刚好在搞中文医学文本的相关项目,真的可以试试这个语料库。不光节省准备数据的时间,质量也靠谱。建议搭配下面这几篇文章一起看,了解下建模和结构设计的思路,思路就更清楚了。