论文部分内容阅读
目前基于语义的信息检索系统虽然能够识别一定的语义信息,但是由于它们对语言缺乏分析和理解,对查询式和资源表达式仅仅是一种离散的分析,失去了词语之间内在的联系,这就造成信息检索精确率下降。为了提高信息检索的精确率和查全率,本文利用自然语言处理中的概念图理论和《知网HowNet》语义词典,在lumer v4.8实验系统之上,提出并实现了一个具有语义检索功能的信息检索查询扩展模型系统。以下是本文的主要研究内容:(1)查询扩展算法。目前信息检索的查询扩展都是基于统计的模型,本文将统计模型和《知网HowNet》结合,通过《知网HowNet》对词项重新加权,利用N层向量空间模型得到新的文档与查询的相似度,以改善系统检索的效果。(2)概念图的生成。概念图的生成,即如何把语义在语言学上形式化,这是计算机语义理解的第一步,是一切语义理解技术的基础。所谓语言学上的形式化,就是把需要研究的问题以一定的数学形式,严密且规范地表示出来。本文选用概念图作为知识表示的工具,利用哈工大的IR-Lab系统标注的句法依存关系,根据汉语的语法特征,对语法到语义的关系进行转化,生成概念图,并实现概念图的匹配。(3)设计并实现了基于概念图的信息检索查询扩展模型系统。该系统主要包括查询扩展模块概念图的匹配模块。其中,查询扩展模块保证同一概念不同表达的词语能被检索出来;概念图匹配模块是意义相同或非常相近的词语或句子是否能够被检索出来的关键因素。本文通过采用查询扩展技术,检索出相关的文档,提高信息检索的查全率;通过概念图理论的投影匹配、最大连接匹配及概念图相似度运算,检索出相匹配的文档,提高了信息检索的精确率。最后,给出了本系统的评测结果。针对本文的查询扩展技术、概念图生成阶段和概念图匹配阶段采用的方法,对系统进行了测试及分析,通过与目前的基于统计的模型的比较,实验结果表明本文所采用的方法,提高了信息检索系统的查全率和精确率。