论文部分内容阅读
随着互联网信息全球化的发展进程,互联网上的网页信息迅速增长并不断积累。互联网上,不同国家、地区和民族所使用的语言文字的语种差异很大。互联网用户不仅想要找到母语信息,越来越多的用户希望获取到其他语言文字的信息内容。跨语言信息检索正是基于这种需求提出的一种技术和方法,并逐步发展成为信息处理技术的一个重要研究方向。在中国,互联网的发展也推动了少数民族语言文字信息处理的发展,越来越多少数民族语言网站纷纷涌现,面向少数民族语言文字的信息检索技术得到了极大的发展,跨语言信息检索允许用户使用熟悉的语言文字搜索其他语言文字信息。查询式翻译、文档翻译是实现跨语言信息检索常用的两种方法。借助这些翻译方法实现语种转化和统一,从而将跨语言信息检索任务转换成单语言信息检索任务。另外,也有研究借助双语词典来翻译查询词。借助词典翻译往往会结合查询扩展来提高检索效果,提升搜索结果的召回率;训练机器翻译模型的研究方法通常需要高质量、大规模的平行语料以期获取高质量机器翻译结果,但是大量优质的平行语料比较难获得,尤其像国内少数民族语言文字,都属于低资源语言范畴,获取难度更大,同时,采用文档翻译方法还需要考虑译文存储带来的存储空间消耗问题。鉴于上述原因,本文提出了应用最新的跨语言词向量方法进行查询词翻译和扩展的蒙汉跨语言信息检索模型。本文主要贡献如下:1)利用跨语言词向量实现从汉文查询词到蒙古文查询词扩展和映射,并利用本文提出的方法在进行词向量映射时对候选的蒙古文查询词进行筛选和排序,选择符合上下文语境的蒙古文词语。该方法在查询前将汉文查询式映射为蒙古文查询式,即针对每一个查询词进行映射时利用该查询词在查询式中的上下文信息对其候选蒙古文查询词进行交叉验证,从而选择一个相对更符合当前查询式上下文语境的候选词。这种方法跟机器翻译的跨语言查询方式相比,不需要大量的平行语料,这是一个很大的优势,并且该方法不需要考虑翻译文档所耗费的大量冗余磁盘空间,且比较易于跨语言查询语种的扩充。相对于基于词典翻译的方式,跨语言词向量可以对“词典外”的词进行映射,易于进行跨语言双语词汇的扩充。2)设计并实现蒙汉跨语言信息检索系统。通过分析网络爬虫技术开发了一个切实可用的蒙古文网页采集方案,采集的文档经过一系列蒙古文预处理步骤之后入库建立索引,通过跨语言词向量完成查询词源语言到目标语言的映射,最终形成一个可用的跨语言信息检索系统。