基于网络百科知识源的概念相似性度量方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:alxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展,人们已进入了网络时代,使用网络的同时产生了文字、声音、视频等不同的信息,最常见的是以文本的形式呈现。文本信息呈现爆炸式增长,如何迅速地从海量的信息中获取所需要的信息成为困扰人们的一个难题。概念是信息的基本单位,概念的相似性度量是信息处理的关键问题,在模式识别、信息检索、文本分类、文本查重、知识挖掘等研究中起着重要作用。在相似性度量时使用较广泛的是向量空间模型,但是向量中存在的一词多义和同义词问题影响着相似性度量的效果。  本文以中文维基百科为例,针对概念相似性的特征向量中一词多义和同义词问题进行了研究,使用两种不同的方法降低了一词多义和同义词问题对概念相似性度量的影响。第一种方法,首先以百科知识源为基础,通过统计和规则相结合的方法,构建了词性特征词典POS-Dic和词性同义词词林POS-Cilin,将两个词典用于概念特征优化,最后使用向量空间模型进行概念相似性度量;第二种方法,使用word2vec技术训练词向量并获得特征向量,然后加入词性同义词词林POS-Cilin,再进行概念相似性度量。实验结果表明,通过词性能降低一词多义对概念相似性度量的影响,通过POS-Cilin能降低同义词对概念相似性度量的影响。最后对本文进行了总结,并指出了尚需研究和改进的地方。
其他文献
论文由四章组成。第一章是对本论文涉及到的问题的背景、定义及进展等各方面的综述。   在第二章中,利用边切换的技巧改变图的局部结构,从而研究二连通图的余直径和图的边数
首先作为一名教师,专业意识、政治意识、和文化意识是必须应该具备的.构建教师正确的专业意识、政治意识和文化意识也是非常重要的,这代表着教师能不能高质量的完成教育任务,
同志们: 首先,我代表市政府向市供销合作经济学会第二届理事会的召开表示热烈祝贺。并对省供销社给予我市供销社的支持表示衷心感谢! 中山市供销社是一个老单位,经历过几十年
本文通过引入斜四元数,将deSitter空间S42等同于一维斜四元射影空间HP1.然后我们构造S42的扭丛,将它实现为双曲射影空间CH31,相应的扭曲投射为e∶CH31→S42.这平行于S4的扭丛CP3
跳变系统是一类非常重要的混杂系统,通常被用来描述子系统间存在随机切换的动态系统,例如太阳能温控系统、零部件突然损坏的动力系统、执行拦截飞行目标任务的动态系统等。与非
复发事件数据和生存数据是纵向研究中十分常见的两种复杂数据,比如:病人癌细胞复发、车保索赔和产品质量检测等。分析这些复杂数据,需要根据数据的背景及数据类型,建立合理的统
生物种群的持续生存是数学生态学中捕食理论及其相关课题的一个重要问题,并且还将继续是生态学和数学生态学中一个重要问题之一,因为这个问题是广泛存在的问题。人们对于捕食者
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
随着以计算机技术、网络技术、通讯技术为代表的信息技术的迅猛发展,计算机和互联网在社会各个领域中得到广泛应用,逐步改变着并深刻影响着人们的工作、学习和生活方式,信息
在小学语文教学的过程中,只有活跃的课堂气氛才能保证教学活动的顺利进行.而活跃的课堂氛围需要教师和学生的共同参与其中,这不仅可以营造良好的课堂环境,增强学生对课堂内容