基于网络百科知识源的概念相似性度量方法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：alxp

【摘要】

：

随着互联网技术的发展，人们已进入了网络时代，使用网络的同时产生了文字、声音、视频等不同的信息，最常见的是以文本的形式呈现。文本信息呈现爆炸式增长，如何迅速地从海量的信息

【作者】

：

常晓飞

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2017年期

【关键词】

：

文本信息相似性度量向量空间模型网络知识源

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的发展，人们已进入了网络时代，使用网络的同时产生了文字、声音、视频等不同的信息，最常见的是以文本的形式呈现。文本信息呈现爆炸式增长，如何迅速地从海量的信息中获取所需要的信息成为困扰人们的一个难题。概念是信息的基本单位，概念的相似性度量是信息处理的关键问题，在模式识别、信息检索、文本分类、文本查重、知识挖掘等研究中起着重要作用。在相似性度量时使用较广泛的是向量空间模型，但是向量中存在的一词多义和同义词问题影响着相似性度量的效果。　　本文以中文维基百科为例，针对概念相似性的特征向量中一词多义和同义词问题进行了研究，使用两种不同的方法降低了一词多义和同义词问题对概念相似性度量的影响。第一种方法，首先以百科知识源为基础，通过统计和规则相结合的方法，构建了词性特征词典POS-Dic和词性同义词词林POS-Cilin，将两个词典用于概念特征优化，最后使用向量空间模型进行概念相似性度量;第二种方法，使用word2vec技术训练词向量并获得特征向量，然后加入词性同义词词林POS-Cilin，再进行概念相似性度量。实验结果表明，通过词性能降低一词多义对概念相似性度量的影响，通过POS-Cilin能降低同义词对概念相似性度量的影响。最后对本文进行了总结，并指出了尚需研究和改进的地方。

其他文献

图的路、圈及结构变化

论文由四章组成。第一章是对本论文涉及到的问题的背景、定义及进展等各方面的综述。　　在第二章中，利用边切换的技巧改变图的局部结构，从而研究二连通图的余直径和图的边数

学位

二连通图边切换余直径p-部竞赛图

浅谈教师应有的三种意识

首先作为一名教师,专业意识、政治意识、和文化意识是必须应该具备的.构建教师正确的专业意识、政治意识和文化意识也是非常重要的,这代表着教师能不能高质量的完成教育任务,

期刊

专业意识政治意识文化意识

冯煜荣副市长在中山市供销合作经济学会第二届理事会上的讲话

同志们: 首先,我代表市政府向市供销合作经济学会第二届理事会的召开表示热烈祝贺。并对省供销社给予我市供销社的支持表示衷心感谢! 中山市供销社是一个老单位,经历过几十年

期刊

经济学会农村经济十年农业生产资源农业经济联合起来经济组织形式个人力量经济改革国有企业

de Sitter空间S<,2><'4>的扭丛和类空曲面的若干结果

本文通过引入斜四元数，将deSitter空间S42等同于一维斜四元射影空间HP1.然后我们构造S42的扭丛，将它实现为双曲射影空间CH31，相应的扭曲投射为e∶CH31→S42.这平行于S4的扭丛CP3

学位

斜四元射影空间扭丛类空曲面极大曲面平行中曲率曲面

混杂随机线性系统的采样适应控制和二次型性能分析

跳变系统是一类非常重要的混杂系统，通常被用来描述子系统间存在随机切换的动态系统，例如太阳能温控系统、零部件突然损坏的动力系统、执行拦截飞行目标任务的动态系统等。与非

学位

混杂随机线性系统采样适应控制二次型性能分析线性马氏跳变系统性能偏差最小二乘法

复发事件数据半参数模型及高维数据生存分析

复发事件数据和生存数据是纵向研究中十分常见的两种复杂数据，比如:病人癌细胞复发、车保索赔和产品质量检测等。分析这些复杂数据，需要根据数据的背景及数据类型，建立合理的统

学位

复发事件数据半参数模型超高维生存数据变系数生存模型变量筛选

时滞周期捕食—食饵模型的正周期解的存在性

生物种群的持续生存是数学生态学中捕食理论及其相关课题的一个重要问题，并且还将继续是生态学和数学生态学中一个重要问题之一，因为这个问题是广泛存在的问题。人们对于捕食者

学位

捕食者——食饵模型时滞周期正周期解数学生态学非自治种群食饵扩散系统

花花世界

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

如何提高高中生信息素养的探究

随着以计算机技术、网络技术、通讯技术为代表的信息技术的迅猛发展,计算机和互联网在社会各个领域中得到广泛应用,逐步改变着并深刻影响着人们的工作、学习和生活方式,信息

期刊

高中生计算机技术信息素养农村学校学生为主信息能力信息技术现代社会网络技术通讯技术生活方式深刻影响基本素质高中学生恐惧感互联网应

浅谈如何活跃小学语文课堂气氛

在小学语文教学的过程中,只有活跃的课堂气氛才能保证教学活动的顺利进行.而活跃的课堂氛围需要教师和学生的共同参与其中,这不仅可以营造良好的课堂环境,增强学生对课堂内容

期刊

小学语文课堂气氛学习兴趣

基于网络百科知识源的概念相似性度量方法研究

其他学术论文