【摘 要】
:
随着通信技术和计算机技术的飞速发展,自动信息处理已成为人们获取大量信息不可缺少的工具文本分类作为自动信息处理的重要研究方向,有着广泛的应用前景粗糙集理论和神经网络
论文部分内容阅读
随着通信技术和计算机技术的飞速发展,自动信息处理已成为人们获取大量信息不可缺少的工具文本分类作为自动信息处理的重要研究方向,有着广泛的应用前景粗糙集理论和神经网络技术在模式识别中都已得到广泛的应用,但在文本分类领域的应用研究相对较少。粗糙集在不影响分类精度的前提下通过信息约简能得到显式的文本分类规则,但它对数据中的噪声比较敏感,分类规则具有模糊性神经网络有很强的容错学习能力,但不能消除过量的冗余信息,且庞大的文本特征维数限制了网络的性能为此本文采用了一种粗糙集和神经网络相结合的文本分类方法,设计并实现了一个RS-BPNN中文文本分类系统,主要工作内容有:1)本文对当前文本分类领域的关键问题及其常用解决方法进行了研究,分析了现有方法的特点与不足详细阐述了信息约简的粗糙集理论和基于神经网络的机器学习技术,分析了它们相结合的优点2)本文结合粗糙集的属性约简和神经网络的分类机理,在向量空间模型表示文本的基础上,构建RS-BPNN中文文本分类模型首先采用粗糙集对向量空间降维,然后用BP神经网络进行训练,再利用训练得出的分类知识对新文本进行分类通过两者有机的融合增强了它们在文本分类中的实用性3)针对现有属性约简算法的缺陷,结合向量空间模型的特点,对粗糙集的Johnson属性约简算法进行了改进改进的算法以特征向量重要度为启发式信息,加快了约简速度并能得到较优的约简4)开发了一个RS-BPNN中文文本分类原型系统,采用客观的中文语料库对系统进行封闭式和开放式测试,分析和评估文本的分类性能及系统的整体性能结果表明该系统具有较高的分类精度,基于粗糙集和神经网络相结合的中文文本分类方法切实可行。
其他文献
网格是一个集成的计算与资源环境,它能充分吸纳各种计算资源,并将它们转化成一种随处可得的、可靠的、标准的同时还是经济的计算能力,实现资源的全面共享。良好的调度是实现高效
由于计算机在图像领域的优异性,情感计算越来越受到国内外研究者的关注,情感计算是试图使计算机能够像人类那样具有理解和表达情感能力的一个多学科交叉的新研究领域,在智能
随着21世纪到来,传统信息传播方式已经无法满足新时代信息传递的需求。互联网的飞速崛起,促进了传统信息传播媒介到新兴信息传播媒介的转换,由过去滞后、单调、被动的传播方
在过去二十多年的发展历程中,以解决组织内部协同工作为目的的传统工作流技术取得了巨大的成就。但在面对日益走向分布、动态和异构的新型应用环境时,以WfMC规范为代表的传统工
原始图像在其获取、存储和传输过程中,由于受到图像捕捉系统、存储介质以及传输系统等因素的影响,使得最终获取的图像不可避免地存在图像退化问题。对于这些存在退化问题的图
P2P网络存在可扩展性差和查找服务效率较低等问题。针对这些问题,各国研究人员和开发人员不断推出新的应用和新的协议(或改进已有的协议)。但是当前大多数的P2P网络仿真软件
计算机技术、多媒体技术及Internet的迅速发展,使得基于内容的视频检索成为多媒体领域最活跃的研究热点之一。本文首先介绍了基于内容的视频检索(CBVR)的研究背景及意义、国
时间戳为用户数据提供一个不可更改、不可伪造,且具有可鉴别性的时间标记,防止用户事后抵赖行为,尤其是为电子文件或电子交易提供准确的时间证明,在电子商务和知识产权保护中
本论文着重研究无线mesh网络中基于蚁群算法解决多约束QoS问题。无线mesh网络(Wirless Mess Network)简称WMN,是一个新型的无线通信网络。无线mesh网具有自组织性和自愈的特
随着社会竞争力的日益激烈,在较少的投资或不投资的情况下改善操作人员作业绩效是提高企业生产效率,增强企业在国内外竞争力的有效途径。应用工业工程技术中最基础的工作研究