论文部分内容阅读
随着网络信息的扩张,如何提高信息检索系统对自然语言的处理能力,成为研究热点.传统的基于关键词字面匹配的方式无法解决复杂的语言关联问题,一些新的自然语言表达模型试图刻画语义关系,利用自然语言处理技术实现对文本信息的理解和检索.该文在分析已有模型和方法的基础上,提出了基于概念网络的信息检索思想,旨在采用自然语言处理技术解决检索系统文本分析的词法和语义问题,以语言单位的意义(概念)为核心,构建英语概念网络的语言知识表达方式,用于词法分析、关联搜索、语义匹配与相似度计算等方面.论文的主要内容分为三部分:1.研究并阐释了概念网络的表达体系,将概念网络用于英语的自然语言知识的表达.概念(义项)成为描述语言关联现象的基本单位,按属性、关系和行为三部分深入分析了概念的组成,不同的概念通过关系和行为(产生式规则)联系起来成为概念网络;分析了基于概念网络进行信息检索的可行性,对在此基础上的自然语言处理过程作了策略分析,认为需要分阶段和层次—词法、语法、语义和语用;初步构建了包含英语概念网络在内的实验用知识库.2.基于知识的多语言词法分析器.该文利用专家系统的技术,将词法分析的知识组织成数据、知识库和控制三部分,建立了一套规则表示与解释的机制;需要时推理机从数据库调用知识,实现了具体分析规则的内容与程序的分离,使得可以无需修改程序代码而直接向数据库添加、删除、更新知识,这给系统更新带来了方便;对于多语言词法分析来讲,就可能达到在同一个框架内使用内容不同的词法分析知识的目的.这个框架有望能够以很小的代价发展成德语、法语等同一语系的词法分析器.3.基于概念网络的词汇相似度计算模型.深入分析了模型的结构组成,研究了模型的不同部分词性、背景、词形和词义相似度的具体实现及其核心的概念网络搜索算法,模型设计体现了权值动态调整策略、关系的不同处理方式.