语料的小工具里,AntConc算是入门选手的好伙伴。轻便、免费,界面不花哨但该有的功能都不缺。像你要找词频、看搭配、比对文本什么的,用它都挺顺。下载也简单,装完就能跑,不用配置一大堆环境。
跑中文语料得注意,先把语料分好词,不然检索起来基本白搭。你可以用结巴分词提前,像这个搜狗语料库,就已经分好词了,直接拿来用挺方便。
对话语料也能,比如Douban 对话库,搞聊天机器人、语言模型啥的适合。AntConc 虽然界面是英文的,但操作直观,点几下就上手。最常用的就是词表和共现词两个功能,新手别贪多,先把这两个玩熟。
如果你想全库检索或者对数据库玩高级点的东西,像全库检索系统、SQL Server或Oracle 检索,那就不止是 AntConc 的事了,得配套数据库技能。
哦对,AntConc 的检索是关键词窗口检索(KWIC)那种格式,看关键词前后语境直观。你还可以自定义词表,设定检索规则,挺灵活。建议一次别塞太大文件,几十 MB 以内效果最好,大了容易卡。
如果你刚接触语料,又不想折腾太多环境配置,AntConc 真的是不错的起点。玩顺手了,再往更复杂的工具跳也不迟。