【摘 要】
:
随着计算机网络的不断发展,实时共享网络资源已经成为可能,但是同时也带来了海量的信息资源。为了能够从海量纷杂的文本信息中及时准确地获取有效的知识和信息,人们开始关注
论文部分内容阅读
随着计算机网络的不断发展,实时共享网络资源已经成为可能,但是同时也带来了海量的信息资源。为了能够从海量纷杂的文本信息中及时准确地获取有效的知识和信息,人们开始关注文本分类技术。文本分类技术可以在很大程度上解决信息杂乱问题,方便用户准确地定位所需要的信息。本文探讨了文本分类的一些关键技术,包括文本表示、文本预处理、特征选择、特征词加权计算、文本分类算法、性能评价。其中,特征词加权算法和KNN分类算法是文本分类过程中两个比较重要的问题,本文围绕这两个问题进行研究。本文首先阐述了常用的特征词加权算法,着重研究了传统的tf*idf加权算法,分析该加权算法存在的不足,即只考虑特征词频率tf和反文档频率idf两种因素,而忽视了特征词本身的特点。在传统的tf*idf加权算法的基础上,本文分析了特征词的一些特点,比如特征词在文档中的位置分布情况、特征词的词语长度和所属的类别,综合考虑了这几种因素之后,提出多元权重特征加权算法,将原有公式进行了扩展,使得经过加权算法调整后的特征词更具有代表性。另外,本文研究了一些常用的文本分类算法后,重点分析了KNN分类算法。针对KNN分类算法的分类结果易受训练文档集数据倾斜的影响,本文引入了算术平均的思想,提出有针对性的改进算法,并通过实验来验证该算法的有效性。实验结果表明,本文所提出的算法效果令人满意,在一定程度上提高了分类的准确率、查全率。
其他文献
基于局部特征与视觉辞典的视觉局部表达与索引模型是当前主流的计算机视觉系统的基本组成部分,在目标识别、场景匹配、多媒体内容搜索与分析中具有广阔的应用前景,也是目前计
在自适应学习系统中,由于学习者的学习特征众多,数据库系统是一个庞大的数据资源,每天都会有大量的记录存储到数据库中,其中可能会包含一些重复的、无关紧要的、甚至是相互矛
目前,由于信息技术应用于基础教育中,在实际的教学中开发了大量的基础教育资源,为教、学提供支持,以促进教师的教学效果、提高其工作效率和学生的学习效果。然而,由于大多数
分布式计算是利用网络把成千上万台计算机连接起来,组成一台虚拟的超级计算机,完成单台计算机无法完成的超大规模的问题求解。新世纪信息技术的瓶颈是实时处理和海量存储,而
本课题来源于上海Sybase软件公司的电子银行项目,该项目是基于web的银行间转账、汇款、结算等业务处理,由于涉及到大量的敏感数据,网络安全就成了重要的突出问题。随着网络规模
由于神经网络方法在气象预报建模时,其初始权值和阈值难以确定,需要反复训练以确定网络结构和各种参数,这又容易导致过拟合问题,严重影响网络的泛化能力。优化BP神经网络的方
近年来,Web服务逐渐成为实现系统应用跨平台的主要技术,但是随着Web服务的极大发展和广泛应用,网络上出现了很多相同或相似功能的服务,用户如何从这些功能相同或相似的服务中
随着计算机网络应用多元化的发展,传统的尽力而为服务模型已不能满足网络中大量多媒体传输的需求,追求计算机网络服务质量(QoS)已成为网络发展的趋势。QoS路由选择问题是在网
当今社会是一个信息的社会,信息可以被无限次共享,也只有共享信息才能充分发挥出信息潜在的价值。网络技术的发展,使得信息的共享变得尤为方便,尤其是近年来P2P网络的出现大
光声成像(Photoacoutic Imaging,PAI),因其独特的成像特点,已经成为生物医学成像领域的研究热点之一。光声成像采用脉冲激光照射生物组织,激光能量设定在国际安全标准的范围