论文部分内容阅读
随着互联网技术的发展,人们已进入了网络时代,使用网络的同时产生了文字、声音、视频等不同的信息,最常见的是以文本的形式呈现。文本信息呈现爆炸式增长,如何迅速地从海量的信息中获取所需要的信息成为困扰人们的一个难题。概念是信息的基本单位,概念的相似性度量是信息处理的关键问题,在模式识别、信息检索、文本分类、文本查重、知识挖掘等研究中起着重要作用。在相似性度量时使用较广泛的是向量空间模型,但是向量中存在的一词多义和同义词问题影响着相似性度量的效果。 本文以中文维基百科为例,针对概念相似性的特征向量中一词多义和同义词问题进行了研究,使用两种不同的方法降低了一词多义和同义词问题对概念相似性度量的影响。第一种方法,首先以百科知识源为基础,通过统计和规则相结合的方法,构建了词性特征词典POS-Dic和词性同义词词林POS-Cilin,将两个词典用于概念特征优化,最后使用向量空间模型进行概念相似性度量;第二种方法,使用word2vec技术训练词向量并获得特征向量,然后加入词性同义词词林POS-Cilin,再进行概念相似性度量。实验结果表明,通过词性能降低一词多义对概念相似性度量的影响,通过POS-Cilin能降低同义词对概念相似性度量的影响。最后对本文进行了总结,并指出了尚需研究和改进的地方。