基于概念图的信息检索查询扩展模型研究与实现

来源 :西北大学 | 被引量 : 0次 | 上传用户:Redlove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前基于语义的信息检索系统虽然能够识别一定的语义信息,但是由于它们对语言缺乏分析和理解,对查询式和资源表达式仅仅是一种离散的分析,失去了词语之间内在的联系,这就造成信息检索精确率下降。为了提高信息检索的精确率和查全率,本文利用自然语言处理中的概念图理论和《知网HowNet》语义词典,在lumer v4.8实验系统之上,提出并实现了一个具有语义检索功能的信息检索查询扩展模型系统。以下是本文的主要研究内容:(1)查询扩展算法。目前信息检索的查询扩展都是基于统计的模型,本文将统计模型和《知网HowNet》结合,通过《知网HowNet》对词项重新加权,利用N层向量空间模型得到新的文档与查询的相似度,以改善系统检索的效果。(2)概念图的生成。概念图的生成,即如何把语义在语言学上形式化,这是计算机语义理解的第一步,是一切语义理解技术的基础。所谓语言学上的形式化,就是把需要研究的问题以一定的数学形式,严密且规范地表示出来。本文选用概念图作为知识表示的工具,利用哈工大的IR-Lab系统标注的句法依存关系,根据汉语的语法特征,对语法到语义的关系进行转化,生成概念图,并实现概念图的匹配。(3)设计并实现了基于概念图的信息检索查询扩展模型系统。该系统主要包括查询扩展模块概念图的匹配模块。其中,查询扩展模块保证同一概念不同表达的词语能被检索出来;概念图匹配模块是意义相同或非常相近的词语或句子是否能够被检索出来的关键因素。本文通过采用查询扩展技术,检索出相关的文档,提高信息检索的查全率;通过概念图理论的投影匹配、最大连接匹配及概念图相似度运算,检索出相匹配的文档,提高了信息检索的精确率。最后,给出了本系统的评测结果。针对本文的查询扩展技术、概念图生成阶段和概念图匹配阶段采用的方法,对系统进行了测试及分析,通过与目前的基于统计的模型的比较,实验结果表明本文所采用的方法,提高了信息检索系统的查全率和精确率。
其他文献
学位
随着网络技术的迅速发展和网络应用的广泛普及,当今社会计算机系统功能越来越复杂,网络体系结构也日益强大,它们对社会产生了巨大而深远的影响,但同时也使得计算机安全问题越来越
如何更好地管理数据并挖掘其中的价值,已经成为了大数据时代的热门问题,受到了学术界和工业界的极大关注,同时涌现出了很多开源的工具,如Hadoop、Kafka^ Openstack、Zookeepe
本文在深入学习数据仓库、OLAP、数据挖掘等关键技术的基础上,针对Yeemu加速器的特点,设计并开发基于Yeemu加速器的客户关系管理系统。首先,对Yeemu加速器进行调研,创建了用
随着互联网的飞速发展,网络上各种攻击形式也越来越多样化,网络安全问题正逐渐受到人们的重视。随着校园网应用的深入,校园网络的安全问题也逐渐突出,直接影响着学校的教学、科研
近年来,通信网络的服务不断增长,传输能力不断的提高,骨干网络和高速局域网络对带宽的需求不断升级,这就导致接入网成为通信网络的瓶颈。以太网无源光网络(Ethernet passive
随着信息化的不断深入,信息化程度的不断提高,信息服务已经成为现代产业体系中非常重要的一环。对于信息服务的管理也成为现代产业发展的重要因素。主机是信息服务的承载体,
无线传感器网络综合了传感器技术、嵌入式计算技术、分布式信息处理技无线通信技术,能够协作地完对目标信息的传感、实时监测和采集。在无线传感器网络的部署中,节点间的检测区
本文以网络视频传输为应用背景,借鉴传统的网络拥塞控制原理对流媒体网络传输控制进行了深入分析,根据网络自适应拥塞控制模型TFRC,提出了一种视频服务端自适应速率传输策略-
以视频处理和运动目标检测技术为背景,通过对比分析时域差分、背景减除及光流法等三种常用目标检测算法,归纳总结了算法各自的优缺点及适用性;针对光线变化、背景干扰、前景