文本语义相似度计算方法研究

被引量 : 61次 | 上传用户:jy02324491
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的发展,文本数据的数量大幅度地增长,但是这类数据对于计算机来说难于理解和使用,解决这一问题的途径之一是借助语义相似度计算。遗憾的是,现有的语义相似度计算研究成果在应用时大都需要较多的附加信息,例如大规模语料库以及完备本体等,这些附加信息在实际应用领域中通常难以获得,因此成果的应用范围受到了一定的限制;此外,迄今为止研究是在不同时期、不同前提下割裂地进行的,对概念、句子和文档等研究对象的语义相似度计算研究没有形成统一的理论体系。针对以上问题,论文在不完备附加信息前提下,从概念、句子和文档三个对象层面研究文本数据的语义相似度和相关度计算,计算过程包括语义提取、语义描述、语义相似度计算三个主要阶段。各研究对象与本体的语义关系将基于本体结构进行提取,用研究对象在本体中的语义“指纹”描述对象本身,构建基于本体结构的语义向量,从而进行语义相似度计算。研究成果主要包括以下三方面:1.提出了一种基于树结构和以树为主体的图结构的相似度和相关度计算方法。通过分析本体的树结构,可以发现概念节点的祖先概念节点和后代概念节点与当前概念节点语义相关,据此特点可以找出概念节点在本体树中的相关概念节点;根据概念节点在本体中所处位置的结构信息计算概念节点密度,实现基于树结构本体的概念语义提取,语义描述和语义相似度计算。在树结构本体相似度计算方法的基础上,进一步提出了基于以树为主体的图结构的概念相关度计算方法。针对特定语义相关度计算需要,将以树为主体的图结构本体转化为树结构本体,计算概念节点间的语义相关度。本方法在领域数据中得到很好的应用,在标准数据集WordNet上的实验也证明:与经典的计算方法相比,在不完备附加信息背景下,本方法获得很好的皮尔森线性相关系数值(Correlation)。2.提出了一种基于树结构本体的句子相似度计算方法。利用本体概念与句子中关键词之间建立的语义索引,构建句子与本体间的直接和间接语义联系,据此提取描述句子的语义向量,从而计算句子间的语义相似度。应用微软研究院的意译语料库(MSRP)对本方法进行验证,实验结果表明:与相关的计算方法相比,本方法在不完备附加信息应用前提下获得了较好的准确率和召回率。3.提出了一种基于树结构本体的文档相似度计算方法。除利用本体概念与文档中的关键词建立的语义索引来构建文档与本体间的直接和间接语义联系外,还利用本体的层次结构信息估算文档关键词的权重,据此构建基于本体的文档语义向量来计算文档间的语义相似度。用Michael D.LEE50标准文档相似度测试数据集进行验证,实验结果表明:与相关的方法比较,本方法在不完备附加信息应用前提下获得了较好的皮尔森线性相关系数值。简而概之,与已有的计算方法相比,论文提出的三种语义相似度计算方法在应用时,所需附加辅助信息少,计算过程简单高效,经过相关的数据集测试具有较好的计算精度,因此有良好的领域适应性。图39幅,表20个,参考文献120篇。
其他文献
<正>众所周知,金属钠与水反应生成氢氧化钠和氢气,但产物必须通过实验来验证。对钠与水反应生成氢氧化钠的验证比较简单,即向烧杯里滴有酚酞的水中加入事先准备好的金属钠,若
试验采用2×2因子设计研究不同的畜舍饲养环境温度和饲喂方式对断奶仔猪生长性能和腹泻率的影响。选用21日龄杜×长×大断奶仔猪240头,随机分配到4个处理组,每个处理6个重复,
1949年新中国成立以来,随着社会经济的发展,我国中学历史课程设置已经走过了60多年的发展历程。在这期间,由于我国国情、中学生学情的不断变化,以及国家教育方针和政策的不断调整
我国目前处于经济高速发展的阶段,各种企业所处的市场基本都是完全竞争状态的。但是中国醋纤企业由于受到国家专卖设置的进入壁垒的保护,实际上属于计划经济产业,处于不完全
随着农业现代化的快速发展,农产品物流作为连接农业和工业、农村和城市、农民和消费者的纽带得到了政府、企业和社会越来越多的重视,且在国家不断出台的有利政策支持下呈现出广
随着新公共管理运动的兴起和发展,政府的职能已由“管制型政府”逐步向“服务型政府”转变。纳税服务作为税务部门的核心业务,是税务机关服务民生创新社会管理的重要体现。同
露天矿边坡稳定是露天矿安全生产的重大问题之一,而采场和外排土场构成的复合边坡的稳定性问题则显得更加复杂和突出。论文结合扎泥河露天煤矿工程实际,综合应用现场调研、刚体
为提高刺梨汁香气成分气相色谱分析的准确可靠性,比较不同纤维涂层萃取头萃取刺梨汁香气成分的效果及灵敏度。采用50/30μm DVB/CAR/PDMS、75μm CAR/PDMS、65μm PDMS/DVB、
随着我国城市化的发展和私人汽车的普及,城市交通的拥堵问题变得日益突出。如何通过确实、有效、可行的办法解决这一问题受到人们的广泛关注。交叉路口作为交通路网的基本元素
目的研究蛋白激酶A对甲状腺鳞癌SW579细胞株增殖的调控作用,并探讨TSA是否通过cAMP/PKA信号通路抑制甲状腺癌细胞生长增殖,分析TSA抗甲状腺癌的作用机制。方法体外培养甲状腺鳞