【摘 要】
:
目前,Web已经成为人类知识和文明的全球存储库,这个存储库使得人类的信息在一个巨大的范围内实现共享。由于语言的独特性,现有的信息检索技术仍然缺乏对少数民族语言的研究,
论文部分内容阅读
目前,Web已经成为人类知识和文明的全球存储库,这个存储库使得人类的信息在一个巨大的范围内实现共享。由于语言的独特性,现有的信息检索技术仍然缺乏对少数民族语言的研究,这严重阻碍了少数民族文化的传承和发展。蒙古文是世界上很有影响力的语言文字,因此蒙古文信息检索的研究具有非常重要的意义。为了搭建一个具有较高查全率及查准率的蒙古文信息检索平台。我们从蒙古文的构词和语法等方面特点进行分析,设计了蒙古文索引项(Term)的处理方案,包括蒙古文Term的区分及Stemming规则的确定;分别采用TF、DF及EC三种方法确定了蒙古文停用词表;通过对主流信息检索模型的分析比较,找到比较高效的蒙古文信息检索模型,并对模型的平滑算法、Query结构化、蒙古文停用词表及Stemming规则等方面对蒙古文信息检索效果的影响进行了实验。课题组收集了27345篇蒙古文语料,建立了信息检索测试,包括:集语料库、11个Topic及相关性文档。运用Indri搭建了基于语言模型与推理网络模型相结合的混合模型的实验平台。实验结果表明蒙古文停用词表在有效减少索引大小的同时,提高了检索的查准率,EC停用词表的效果最佳;蒙古文Stemming规则能大幅度减少Term个数,并有效提高检索的查全率;结构化语言模型比其它模型更适应蒙古文信息检索;确定了平滑参数,实验表明三种平滑算法均适合蒙古文信息检索,Jelinek-Mercer平滑算法的效果略优于其它平滑算法。
其他文献
图像配准是图像处理领域的一个重要研究方向,是完成图像融合工作最基本的一步,在医学、遥感和军事等领域具有很强的应用价值。虽然同一场景的多模态图像在灰度属性和分辨率等
网络最重要的功能就是实现信息的传输与共享。现有网络中的数据都是依靠中间节点以“存储-转发”方式来传送。在实际应用中也先后出现了C/S和P2P架构,它们具有简单存储转发机
日益发展的网络和飞速膨胀的信息给人们带来了很多的便利,人们已经开始习惯于上网发布信息,查找资料,网上科研。各种各样的应用系统和web服务出现了丰富的数据资源。为了能有
Java是一门应用很广的流行语言。它有良好跨平台性和优秀的安全性等优点。但是同时运行速度低下一直成为它不足。本文试图从两个方面入手针对Java运行时性能进行调优。一方面
随着中国石油勘探与生产分公司信息门户应用的不断深入,新的需求不断涌现,需要对门户现有的功能进行扩展。SharePoint门户应用是微软.NET技术之上,随着.NET框架不断发展的一
随着企业信息化进程的不断推进,针对工业、商业、金融和信息检索各种应用所产生的巨大数据集而进行的算法研究,已经成为数据挖掘领域研究的主要动力。数据量不断增加,如何处
近些年,随着网络上的入侵事件越来越多,系统及网络的安全成为一个热门领域。防火墙等安全设备已不能满足现在人们对安全的要求,入侵检测成为安全领域一个热点问题。入侵防御
软件产品保护越来越受到人们的重视,软件开发者除了采取法律手段保护自身利益外,还着重从软件加密技术角度来保护自己的知识产权。由于目前常见的USB软件加密锁采用DES算法、
随着计算机技术的高速发展,计算机辅助教学在世界范围逐渐推广,并和传统的教学手段结合得越来越紧密。网络在线考试系统不仅是实现考教分离的最佳途径之一,也有利于提高教学
海冰灾害是我国主要的海洋自然灾害之一,给沿岸水产养殖、渔业生产、交通运输、油气生产以及海岛居民的生产生活等带来了巨大影响。海冰冰型可以表示海冰生成和发展过程的不