基于概念词的文本特征提取及应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:kkyilian2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,海量文本大部分都采用向量空间模型来描述。向量空间模型假定代表各分量的词条间不存在语义关联。同时,由于文本向量的高维性、稀疏性等问题,降维处理已经成为文本特征提取中一个重要的环节。本文在知网语义库的基础上,提出新的词语-概念聚合方法,将语义距离较近的的词聚合成概念词,并把概念词作为和其他独立的词条一样的单位进行处理。既满足了向量空间模型的基本假设,又达到降维的目的。  文章主要包含三块内容:  1.概念词识别的研究。首先,提出概念词的定义。概念词是指两两之间相似度大于阈值的词语的集合。其次,引入图论中的完全子图来生成概念词。将词和相似关系转化为顶点和边的集合,从而将概念词识别的问题转化为完全子图的识别问题。实验发现,直接采用完全子图识别的效果不理想。针对该问题提出“扩展假定”原则,从简化识别和合并概念词两个方面改进了概念词识别算法。  2.基于概念词的文本特征提取。文本经过预处理后,文本被表示为以词语为特征的向量。将词语替换为概念词的过程中,文章提出了简单替换策略。但该方案存在特征描述不准确的问题。从而引入概念词的消歧研究,以解决一个概念词中的词在不同的文档中出现而不能被准确替换为同一个概念词的问题。文章采用LibSVM文本分类器对同一语料采用与不采用概念词两种方案的聚类结果进行对比。实验表明,在降维比例达到25.8%时,分类效果基本不受影响。  3.概念词在个性化推荐中的应用。将概念词应用于一个用于搜索引擎扩展的PSE个性化原型系统中。用实验验证基于概念词的做法提高了搜索引擎扩展的准确性。虽然文章的研究主要是针对个性化服务的,但对中文信息检索和自然语言处理同样适用,可以推广到其它涉及到语言处理的领域。
其他文献
本文的主要研究工作来源于河南省重点科技攻关项目(No.092102210149)“基于区间结构的柔性化控制模型及其系统研究”与河南省教育厅自然科学研究计划项目(No.20098520015)“
随着当前信息技术的发展,信息系统经过长期运转而产生了大量的历史数据,这些数据是提供给各种专业计算的基础。大部分的信息系统长时间内只是在局域网范围内部运行,导致信息系统
复杂网络作为各种真实网络的抽象研究模型,已涉及到物理学、生物学、医学、计算机科学等各大领域。复杂网络的建模算法,统计属性研究和实际应用探索是该课题的主要研究方向。
在信息备份还原范畴之中,存储分区的备份与还原具有重要意义。存储分区备份还原软件,具有易于安装、操作简单等特点。当系统崩溃后,通过这类软件能快速简捷地还原到系统正常
随着数字化信息技术的迅猛发展,虚拟现实技术作为计算机领域的一个重要分支,其应用研究越来越受到人们的关注,而虚拟场景绘制技术最近几年在国内外一直是研究的核心问题,并在教育
网格技术被誉为下一代的互联网应用,它将网络中的节点进行互联,充分实现网格系统中信息和资源的共享,消除网络中的资源孤岛和信息孤岛。网格信息服务是网格系统的核心和基础
随着信息化的发展,企业开发了各种业务系统,但由于各个业务系统采用了不同的开发语言、不同的运行平台等原因,导致系统之间无法实现数据共享和交互。随着市场竞争越来越激烈,综合
本文提出了一种能在较少改变人脸细节特征的前提下,显著地提高人脸吸引力的三维人脸模型的对称性与比例几何美化算法。首先,在三维人脸模型上指定57个特征点,并对关键特征点
从一开始的信息匮乏到现在的信息泛滥,万维网经历了巨大的变化,互联网上的信息量正以一种难以想象的速度扩张,人类从未面临如此海量的信息,人们所面临的问题已不是没有足够的
ETC(Eleetronic Toll Colleetion)电子费用收集系统,是针对智能交通系统中不停车自动收费的应用场景,通过将射频通信技术和计算机技术以及传感技术进行融合,实现交通领域自动收