基于概念的文本表示模型的研究

被引量 : 0次 | 上传用户:rongsiyouyu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在本文中,我们提出了基于概念的文本表示模型。该模型以WordNet语言本体库为主要的概念知识源,即将该本体库中的每个同义词集合看作是能表示明确语义的一个概念,再将文本中的词条均用与该词条对应的概念来代替,也就是用在本体库中该词条所属的同义词集合来代替,建立文本的概念向量空间作为文本特征向量空间,同时考虑概念间的上下位关系,调整特征向量空间的各维度的权值,从而体现出文本中更抽象的语义信息。本文中我们提出两个基于概念的文本表示模型(Text Representation Model based on Concept,简称TRMC),一个适用于文本分类(TRMC for Text Categorization,简称TRMC-TCA),一个适用于文本聚类(TRMC for Text Clustering,简称TRMC-TCL)。其中TRMC-TCA,我们在处理训练文本集合时,使用训练文本的类别信息,修正表示训练文本特征的概念向量的权值,即将概念的反类别频度作为概念向量的权值影响因子之一。为了测试TRMC-TCA和TRMC-TCL的效果,我们进行如下两组实验:一组实验是使用路透社RCV1新闻文本集合,对TRMC-TCA与基于词条的向量空间的文本表示模型,使用相同的文本分类算法进行性能比较。实验结果显示,我们的TRMC-TCA在训练文本集合很小时,能保证令人满意的分类精度;在训练文本集合较大时,在不影响分类性能的前提下,能保持文本特征向量空间的维度在可控的范围之内。第二组实验是使用20新闻组(20Newsgroups)文本集合,对TRMC-TCL与基于词条的向量空间的文本表示模型,使用相同文本聚类算法进行性能比较。实验结果显示,采用层次聚类算法时,我们的TRMC-TCL能有效地提高聚类的性能。
其他文献
生物传感器在医疗、医药、生物工程、环境保护、食品等领域具有广泛的应用前景,因而吸引了众多研究者的兴趣。近年来作为危害人类健康的主要疾病之一的糖尿病,患病率与日俱增
党的十九大提出实施乡村振兴战略。这是党在社会主义新时代对"三农"工作的重大决策部署。对于新闻媒体,乡村振兴战略的丰富题材本身就是非常值得关注的舆论传播内容。同时,发
近10年来,我国高速公路快速发展,一些经济较为发达的省份(如江苏省、浙江省等),省内的高速公路路网(以下简称省域路网)骨架已经初步形成。然而不幸的是,高速公路在促进国民经
建立知识产权联盟,有利于高新技术业整合研发资源,提高研发资源利用效率,然而由于研发企业间的同质竞争、利益分享有限等问题的存在,使得现实中大多数知识产权联盟无法发挥应有的
随着我国经济水平的不断提升,众多事业单位的发展也变得越来越好,作为国家经济发展的重要组成部分,事业单位在现代化社会领域中所起到的作用是不言而喻的。由此可见,加强各事
境外上市是中国改革开放以后推出的一系列改革措施中的一项开创性的成功尝试,它是中国证券市场国际化、深化国有企业改革、拓宽企业融资渠道和国内企业走向国际化的必然选择。
随着DSP和现场总线技术的日益发展,绝缘在线监测系统在变电站电气设备的监测中发挥着越来越大的作用。位于现场端的绝缘在线监测板卡是绝缘在线监测系统的核心模块,其性能直
本文以20世纪80年代的探索戏剧为参照,集中从内容与形式两个方面探讨20世纪90年代先锋戏剧的特点。国内有一些学者将80年代的探索戏剧同90年代的先锋戏剧放在一起,将它们统统
随着信息技术的迅猛发展和信息化在企业中的普遍应用,信息技术带来的变革不仅仅是技术上的,更是涉及到组织机构和业务流程的变革。如果不积极应对变革中的诸多问题,必然会受
随着嵌入式技术的快速发展,特别是嵌入式微处理器处理能力的大幅提高和嵌入式操作系统广泛使用,嵌入式系统已成为后PC时代一个新的发展方向。本论文对基于ARM的嵌入式便携终