汉语相似词的自动获取方法

来源 :北京大学 | 被引量 : 0次 | 上传用户:ssxjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似词是自然语言处理领域重要的知识资源,在查询扩展、机器翻译、自动摘要、问答系统中都有广泛的应用。本文对汉语相似词的自动获取进行了系统的研究,主要使用基于大规模语料库的无指导方法,同时实验了汉英双语信息的集成方法、多语体多窗口的集成方法,并提出一种以相似词作特征的新方法,相似度计算结果得到了显著提升。最后将词语相似度结果应用到了句际关系识别中,取得了较为理想的效果。  本文主体有五个部分:  1)基于大规模语料库进行相似词自动提取,使用向量空间模型,对方法中各参数进行了评估比较,包括语料语体(新闻vs网络)、上下文表征形式(窗口上下文vs依存关系)、特征权值选择(tf,bool,idf,tfidf,PMII)、相似度计算方法(cosine,LIN)等。实验证明,使用网络语料,窗口上下文作特征,互信息(PMII)作特征权值,cosine计算能得到最好的结果。  2)在1)的基础上,使用汉英双语信息,将目标词、相似词均翻译成英文,找出LIN中对应的相似度值和排序,得到英文信息的序列。将两个序列集成,实验结果证明双语间有互补作用,可进一步提升相似度计算的准确率。  3)在1)的基础上,使用不同语体不同窗口生成三个词语相似度序列,对三个序列使用平均分数、平均排名、调合平均排名等方法进行集成,实验结果证明不同的序列间有互补性,且准确率的提升与不同序的重合度一致。  4)提出了新的表征词语的特征-相似词。以相似词作为特征,相似度得分或排序作为权值,构建特征向量,计算向量间相似度从而得到词语相似度。实验证明,该特征提供了新的有用信息。  5)最后,将词语相似度计算结果应用于句际关系识别上,对并列与主从(非并列)关系进行了自动区分。实验了句子相似度、最大公共子串、最大动词周边匹配、加重特定词语复现、区分词性权重等方法,最终,集成几个有效方法取得了最好的效果。
其他文献
近年来,在油气开发过程中,地震资料在开发井的设计中使用越来越广泛,地震资料中丰富的区块、测井等信息对油气开发起到了很好的指导作用。但是,在使用这些信息的过程中,由于对很多
第一原理计算是科学计算中最重要的一类计算。它以原子位置坐标为基本参数,通过平面波展开求解Kohn-Sham方程,得到精确的材料的光、电、磁等物理性质。然而其求解速度和求解规
随着XML标准的普及,如何对海量的XML数据文档进行快速有效的分析挖掘成为当今一个研究热点。本文深入研究了XML文档中层次化结构特征和网络化链接特征的分析方法,探讨了融合
语义角色标注是浅层语义分析的一种主要实现方法。语义角色标注对句法分析的性能有着极强的依赖性。现阶段,正确率低的复杂自动句法分析已经成为语义角色标注的一个制约因素,
浏览器的评测与优化是自主CPU体系结构之上应用系统的重要研究内容之一。本文以UniCore体系结构为研究平台,以Firefox浏览器为研究对象,分析浏览器的总体架构和依赖环境,对浏览
近年来,软件服务化、云计算、物联网等新技术、新形态、新领域快速扩展,互联网作为一台计算机(Internet As A Computer)的概念逐渐为大众所接受,运行在互联网上的互联网应用
云计算是产业界、学术界、政府等各界均十分关注的焦点,是当前信息技术领域研究及应用的热点之一。它在资源合理应用及租用费用上的优势不容置疑,但其用户的隐私安全问题也备
生物特征识别技术作为新一代的身份认证技术,近年来己经走出实验室,越来越多的在社会生活中的得到广泛使用。本论文对于生物特征识别技术的一个新兴的分支——手指静脉识别技
几何建模是计算机图形学和计算机辅助设计中的一个基本问题。本文中,我们以产品设计为主要应用,对几何建模中几何体形状和位置的优化问题进行了研究。同面向图形学应用的几何
学位