蒙汉跨语言信息检索模型研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:mnbvc1c2c3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息全球化的发展进程,互联网上的网页信息迅速增长并不断积累。互联网上,不同国家、地区和民族所使用的语言文字的语种差异很大。互联网用户不仅想要找到母语信息,越来越多的用户希望获取到其他语言文字的信息内容。跨语言信息检索正是基于这种需求提出的一种技术和方法,并逐步发展成为信息处理技术的一个重要研究方向。在中国,互联网的发展也推动了少数民族语言文字信息处理的发展,越来越多少数民族语言网站纷纷涌现,面向少数民族语言文字的信息检索技术得到了极大的发展,跨语言信息检索允许用户使用熟悉的语言文字搜索其他语言文字信息。查询式翻译、文档翻译是实现跨语言信息检索常用的两种方法。借助这些翻译方法实现语种转化和统一,从而将跨语言信息检索任务转换成单语言信息检索任务。另外,也有研究借助双语词典来翻译查询词。借助词典翻译往往会结合查询扩展来提高检索效果,提升搜索结果的召回率;训练机器翻译模型的研究方法通常需要高质量、大规模的平行语料以期获取高质量机器翻译结果,但是大量优质的平行语料比较难获得,尤其像国内少数民族语言文字,都属于低资源语言范畴,获取难度更大,同时,采用文档翻译方法还需要考虑译文存储带来的存储空间消耗问题。鉴于上述原因,本文提出了应用最新的跨语言词向量方法进行查询词翻译和扩展的蒙汉跨语言信息检索模型。本文主要贡献如下:1)利用跨语言词向量实现从汉文查询词到蒙古文查询词扩展和映射,并利用本文提出的方法在进行词向量映射时对候选的蒙古文查询词进行筛选和排序,选择符合上下文语境的蒙古文词语。该方法在查询前将汉文查询式映射为蒙古文查询式,即针对每一个查询词进行映射时利用该查询词在查询式中的上下文信息对其候选蒙古文查询词进行交叉验证,从而选择一个相对更符合当前查询式上下文语境的候选词。这种方法跟机器翻译的跨语言查询方式相比,不需要大量的平行语料,这是一个很大的优势,并且该方法不需要考虑翻译文档所耗费的大量冗余磁盘空间,且比较易于跨语言查询语种的扩充。相对于基于词典翻译的方式,跨语言词向量可以对“词典外”的词进行映射,易于进行跨语言双语词汇的扩充。2)设计并实现蒙汉跨语言信息检索系统。通过分析网络爬虫技术开发了一个切实可用的蒙古文网页采集方案,采集的文档经过一系列蒙古文预处理步骤之后入库建立索引,通过跨语言词向量完成查询词源语言到目标语言的映射,最终形成一个可用的跨语言信息检索系统。
其他文献
随着网络时代的到来,汉语新词层出不穷。在汉语新词生机勃勃发展之时,汉语新词的规范,尤其是语言教师采取何种方式引导学生正确使用汉语新词的问题值得我们认真思考。
目的调查连续12周口服补充镁剂对4~16岁稳定、持久、中度严重哮喘患儿红细胞氧化还原系统的作用,实验为随机双盲,并有安慰剂对照。方法检测治疗前后氧化型谷胱甘肽和还原型谷
协同治理强调在一定范围内,政府、大众以及经济社会组织等,为了维护并实现公共利益的目标,以法律法规为依据,由政府主导所开展的广泛参与、共同治理社会公共事务的过程。法律
以间苯二甲酸二甲酯-5-磺酸钠(SIPM)和乙二醇(EG)为原料,在一定的温度以及催化剂条件下进行酯交换反应制备常用聚酯染色改性剂间苯二甲酸双羟乙酯-5-磺酸钠(SIPE).用高效液相色谱(HPLC)法测
<正> 前言茶叶中存在糖胺化合物。日本阿南封正从蒸青绿茶中分离出茶氨酸与葡萄糖形成的糖胺化合物,并证明其结构为1—脱氧基—1—L—茶氨酸—D—吡喃果糖。研究认为该化合物
通过对河北省工业废气排放的静态和动态计量模型分析、工业行业废气排放结构分析、工业废气治理效率分析以及工业废气治理投资分析,可知:河北省对工业废气排放总量控制的技术
在已知15种必需微量元素中,锌几乎存在于所有类型生物中,在生物体内含量仅次于铁而占第二位。锌在机体内的主要生物学作用有:维持生物膜正常结构及功能;参与核酸及蛋白质代谢,与基因
寻求高效和科学的排课方法,是教务管理人员工作中的重中之重。如要使高校教学科学有序地进行,教务管理工作就要上更高的层次。各高校采取二级管理模式是一项非常好的方法,怎
<正>@王虹,企业公关清早打开微信朋友圈,看到第一条信息:我属于点赞党……还配了两张图片,一张上写"过去的一年,你送出了8946个赞",另一张上是"你收获了2852个赞"。我的朋友
期刊
压力铸造是一种高效的生产技术,利用该方法制造的产品精度高、机械性能好,因此被广泛用于汽车、建筑、电器等各个行业。铝合金作为压铸生产常用的材料,其铸造过程易产生缩松