这篇论文提出了一种有意思的方法,用 Web 数据挖掘技术来构建中英双语对照翻译语料库。通过使用网络爬虫从互联网上收集大量网页数据,对这些数据进行净化和,找到中英文对照的双页文本,建立平行语料库。这对于机器翻译领域来说,挺有意义的,毕竟翻译质量的提升离不开大量高质量的语料。文中还讲了如何设计一个双语辅助翻译搜索引擎,利用这些数据进一步优化翻译结果。其实这套方法的核心就是网络爬虫技术,通过从网页抓取数据、建立特征索引、识别和匹配双语内容,最终能自动化积累双语语料。你要是做翻译相关的项目,搞这个挺不错的。