论文部分内容阅读
当前,海量文本大部分都采用向量空间模型来描述。向量空间模型假定代表各分量的词条间不存在语义关联。同时,由于文本向量的高维性、稀疏性等问题,降维处理已经成为文本特征提取中一个重要的环节。本文在知网语义库的基础上,提出新的词语-概念聚合方法,将语义距离较近的的词聚合成概念词,并把概念词作为和其他独立的词条一样的单位进行处理。既满足了向量空间模型的基本假设,又达到降维的目的。 文章主要包含三块内容: 1.概念词识别的研究。首先,提出概念词的定义。概念词是指两两之间相似度大于阈值的词语的集合。其次,引入图论中的完全子图来生成概念词。将词和相似关系转化为顶点和边的集合,从而将概念词识别的问题转化为完全子图的识别问题。实验发现,直接采用完全子图识别的效果不理想。针对该问题提出“扩展假定”原则,从简化识别和合并概念词两个方面改进了概念词识别算法。 2.基于概念词的文本特征提取。文本经过预处理后,文本被表示为以词语为特征的向量。将词语替换为概念词的过程中,文章提出了简单替换策略。但该方案存在特征描述不准确的问题。从而引入概念词的消歧研究,以解决一个概念词中的词在不同的文档中出现而不能被准确替换为同一个概念词的问题。文章采用LibSVM文本分类器对同一语料采用与不采用概念词两种方案的聚类结果进行对比。实验表明,在降维比例达到25.8%时,分类效果基本不受影响。 3.概念词在个性化推荐中的应用。将概念词应用于一个用于搜索引擎扩展的PSE个性化原型系统中。用实验验证基于概念词的做法提高了搜索引擎扩展的准确性。虽然文章的研究主要是针对个性化服务的,但对中文信息检索和自然语言处理同样适用,可以推广到其它涉及到语言处理的领域。