基于概念的文本表示模型的研究

被引量 : 0次 | 上传用户：rongsiyouyu

【摘要】

：

在本文中,我们提出了基于概念的文本表示模型。该模型以WordNet语言本体库为主要的概念知识源,即将该本体库中的每个同义词集合看作是能表示明确语义的一个概念,再将文本中的

【作者】

：

张剑

【发表日期】

：

2006年期

【关键词】

：

文本表示 WordNet 概念向量空间

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在本文中,我们提出了基于概念的文本表示模型。该模型以WordNet语言本体库为主要的概念知识源,即将该本体库中的每个同义词集合看作是能表示明确语义的一个概念,再将文本中的词条均用与该词条对应的概念来代替,也就是用在本体库中该词条所属的同义词集合来代替,建立文本的概念向量空间作为文本特征向量空间,同时考虑概念间的上下位关系,调整特征向量空间的各维度的权值,从而体现出文本中更抽象的语义信息。本文中我们提出两个基于概念的文本表示模型(Text Representation Model based on Concept,简称TRMC),一个适用于文本分类(TRMC for Text Categorization,简称TRMC-TCA),一个适用于文本聚类(TRMC for Text Clustering,简称TRMC-TCL)。其中TRMC-TCA,我们在处理训练文本集合时,使用训练文本的类别信息,修正表示训练文本特征的概念向量的权值,即将概念的反类别频度作为概念向量的权值影响因子之一。为了测试TRMC-TCA和TRMC-TCL的效果,我们进行如下两组实验:一组实验是使用路透社RCV1新闻文本集合,对TRMC-TCA与基于词条的向量空间的文本表示模型,使用相同的文本分类算法进行性能比较。实验结果显示,我们的TRMC-TCA在训练文本集合很小时,能保证令人满意的分类精度;在训练文本集合较大时,在不影响分类性能的前提下,能保持文本特征向量空间的维度在可控的范围之内。第二组实验是使用20新闻组(20Newsgroups)文本集合,对TRMC-TCL与基于词条的向量空间的文本表示模型,使用相同文本聚类算法进行性能比较。实验结果显示,采用层次聚类算法时,我们的TRMC-TCL能有效地提高聚类的性能。

其他文献

纳米线阵列、碳纳米管纳米复合物制备及其在电化学生物传感器中的应用

生物传感器在医疗、医药、生物工程、环境保护、食品等领域具有广泛的应用前景,因而吸引了众多研究者的兴趣。近年来作为危害人类健康的主要疾病之一的糖尿病,患病率与日俱增

学位

纳米线阵列模板法碳纳米管协同作用生物传感器酶葡萄糖

乡村振兴战略中的媒体角色与应对策略

党的十九大提出实施乡村振兴战略。这是党在社会主义新时代对"三农"工作的重大决策部署。对于新闻媒体,乡村振兴战略的丰富题材本身就是非常值得关注的舆论传播内容。同时,发

期刊

乡村振兴媒体角色应对策略

高速公路路网事件的信息发布及救援策略研究

近10年来,我国高速公路快速发展,一些经济较为发达的省份(如江苏省、浙江省等),省内的高速公路路网(以下简称省域路网)骨架已经初步形成。然而不幸的是,高速公路在促进国民经

学位

省域路网路网信息发布系统诱导信息信息发布策略紧急救援策略

高新技术业知识产权联盟的利益分享机制研究

建立知识产权联盟，有利于高新技术业整合研发资源，提高研发资源利用效率，然而由于研发企业间的同质竞争、利益分享有限等问题的存在，使得现实中大多数知识产权联盟无法发挥应有的

期刊

高新技术业知识产权联盟利益分享机制

浅析事业单位内部控制建设存在的问题与对策

随着我国经济水平的不断提升,众多事业单位的发展也变得越来越好,作为国家经济发展的重要组成部分,事业单位在现代化社会领域中所起到的作用是不言而喻的。由此可见,加强各事

期刊

事业单位内部控制建设问题与对策展开浅析

境内企业香港、新加坡上市分析及对策研究

境外上市是中国改革开放以后推出的一系列改革措施中的一项开创性的成功尝试，它是中国证券市场国际化、深化国有企业改革、拓宽企业融资渠道和国内企业走向国际化的必然选择。

学位

境外上市境内企业证券市场

变电站绝缘在线监测系统的研究

随着DSP和现场总线技术的日益发展,绝缘在线监测系统在变电站电气设备的监测中发挥着越来越大的作用。位于现场端的绝缘在线监测板卡是绝缘在线监测系统的核心模块,其性能直

学位

绝缘在线监测CAN总线DSPCPLD

九十年代先锋戏剧论

本文以20世纪80年代的探索戏剧为参照,集中从内容与形式两个方面探讨20世纪90年代先锋戏剧的特点。国内有一些学者将80年代的探索戏剧同90年代的先锋戏剧放在一起,将它们统统

学位

先锋戏剧叙述者舞台表演

中兴通讯项目售前信息处理系统的设计与开发

随着信息技术的迅猛发展和信息化在企业中的普遍应用,信息技术带来的变革不仅仅是技术上的,更是涉及到组织机构和业务流程的变革。如果不积极应对变革中的诸多问题,必然会受

学位

业务流程中兴通讯信息处理项目管理

基于ARM的嵌入式便携终端系统的研究与设计

随着嵌入式技术的快速发展,特别是嵌入式微处理器处理能力的大幅提高和嵌入式操作系统广泛使用,嵌入式系统已成为后PC时代一个新的发展方向。本论文对基于ARM的嵌入式便携终

学位

嵌入式系统XSBase255Linux短信交互数据上传

基于概念的文本表示模型的研究

其他学术论文