论文部分内容阅读
随着计算机和互联网技术的发展,文本数据的数量大幅度地增长,但是这类数据对于计算机来说难于理解和使用,解决这一问题的途径之一是借助语义相似度计算。遗憾的是,现有的语义相似度计算研究成果在应用时大都需要较多的附加信息,例如大规模语料库以及完备本体等,这些附加信息在实际应用领域中通常难以获得,因此成果的应用范围受到了一定的限制;此外,迄今为止研究是在不同时期、不同前提下割裂地进行的,对概念、句子和文档等研究对象的语义相似度计算研究没有形成统一的理论体系。针对以上问题,论文在不完备附加信息前提下,从概念、句子和文档三个对象层面研究文本数据的语义相似度和相关度计算,计算过程包括语义提取、语义描述、语义相似度计算三个主要阶段。各研究对象与本体的语义关系将基于本体结构进行提取,用研究对象在本体中的语义“指纹”描述对象本身,构建基于本体结构的语义向量,从而进行语义相似度计算。研究成果主要包括以下三方面:1.提出了一种基于树结构和以树为主体的图结构的相似度和相关度计算方法。通过分析本体的树结构,可以发现概念节点的祖先概念节点和后代概念节点与当前概念节点语义相关,据此特点可以找出概念节点在本体树中的相关概念节点;根据概念节点在本体中所处位置的结构信息计算概念节点密度,实现基于树结构本体的概念语义提取,语义描述和语义相似度计算。在树结构本体相似度计算方法的基础上,进一步提出了基于以树为主体的图结构的概念相关度计算方法。针对特定语义相关度计算需要,将以树为主体的图结构本体转化为树结构本体,计算概念节点间的语义相关度。本方法在领域数据中得到很好的应用,在标准数据集WordNet上的实验也证明:与经典的计算方法相比,在不完备附加信息背景下,本方法获得很好的皮尔森线性相关系数值(Correlation)。2.提出了一种基于树结构本体的句子相似度计算方法。利用本体概念与句子中关键词之间建立的语义索引,构建句子与本体间的直接和间接语义联系,据此提取描述句子的语义向量,从而计算句子间的语义相似度。应用微软研究院的意译语料库(MSRP)对本方法进行验证,实验结果表明:与相关的计算方法相比,本方法在不完备附加信息应用前提下获得了较好的准确率和召回率。3.提出了一种基于树结构本体的文档相似度计算方法。除利用本体概念与文档中的关键词建立的语义索引来构建文档与本体间的直接和间接语义联系外,还利用本体的层次结构信息估算文档关键词的权重,据此构建基于本体的文档语义向量来计算文档间的语义相似度。用Michael D.LEE50标准文档相似度测试数据集进行验证,实验结果表明:与相关的方法比较,本方法在不完备附加信息应用前提下获得了较好的皮尔森线性相关系数值。简而概之,与已有的计算方法相比,论文提出的三种语义相似度计算方法在应用时,所需附加辅助信息少,计算过程简单高效,经过相关的数据集测试具有较好的计算精度,因此有良好的领域适应性。图39幅,表20个,参考文献120篇。