基于聚类分析的文本分类研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:lianlianforever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的飞速发展以及广泛应用,人们可以获得越来越多的数字化文本信息,但同时也需要投入更多的时间对这些信息进行组织和管理.由此而出现了计算机进行自动文本分类技术.文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别,这是自然语言处理的一个重要的问题,主要应用于信息检索、自动文摘、信息过滤、邮件分类等. 本文的研究内容主要有以下几个方面: (1)对文本分类中的特征表示、特征选择、分类方法和性能评价等关键技术进行探讨和研究. (2)基于聚类分析的文本分类研究.聚类和分类有着密切的联系,从信息粒度角度来看,聚类是在一个统一的粒度下进行计算,而分类是在不同的粒度下进行计算.聚类和分类可以结合起来,利用聚类算法将训练集中每一类样本划分成若干个子类,所有子类的中心向量代表整个训练样本空间. (3)将聚类分析思想引入文本分类中,提出一种新的基于聚类算法的文本分类方法,结合kNN思想处理拒识样本.训练过程中,将训练文档聚类划分成若干个球形簇,使得同一簇中的文档具有较高的相似度和相同的类别;测试时,依据测试文本落入的簇,确定测试文本所属的类别,如果测试文档不落入任何簇中,用kNN方法分类.实验结果显示,、这种方法在高维空间中具有良好的泛化能力和很好的时间性能. (4)文本分类系统的设计与实现.建立了一个实用的文本分类系统,以此作为深入研究文本分类技术的实验平台.
其他文献
随着国内电信业的市场环境日趋合理,竞争日益加剧,中国电信业所面对的国际化市场环境要求国内的公众电信运营企业在经营管理、基础设施建设等方面必须向国外先进的电信运营企业
随着网络技术和应用的快速发展,以流媒体、视频点播、可视电话、视频会议等为代表的多媒体业务迅速增长;与此同时,这些多媒体业务也对网络的服务质量(QOS)提出了更高的要求,
织物CAD作为高新技术的手段为纺织品的设计和生产提供了很大的方便。织物的外观模拟在设计阶段就能预测外观效果,起到代替试织小样的作用,大大提高了新产品、新品种开发的效率
影响力最大化问题是网络病毒式营销策略中非常关键的部分,它可以帮助寻找初始用户集以使得网络中受影响的用户最多。而已有的研究极少考虑网络节点的文本信息,不能区分对不同信
高层体系结构(High Level Architecture,HLA)是当前分布式仿真的事实标准。运行时基础结构RTI(Run-Time Infrastructure)是高层体系结构的关键,它是实现HLA接口规范的软件。
网络技术的迅速发展带来了网络传输信息量的急剧增长,传统的存储系统已经不能满足需要,尤其是下一代互联网时代的到来对存储系统的容量、安全性、可靠性和可用性等方面都提出
随着虚拟现实技术和计算机图形学的发展,利用计算机对自然界中植物的模拟,已经成为一个热门课题。当前的树木虚拟仿真主要把精力集中在追求真实感上,而在虚拟仿真中,有关树木本身
随着信息技术的发展,作为传统实验教学的一种有效补充,虚拟实验教学已成为加强实践教学、提高教学质量的重要手段。国外对虚拟教学实验室的研究始于上世纪80年代末。近年来,
Intemet的发展给人们带来了全新的网络体验,其中的电子邮件技术也成为一种快捷、经济的现代通信手段。然而电子邮件在为人们提供便利的通信手段的同时,也日益成为广告、病毒、
中国石油公司为了应对国内外的挑战,于2000年开始实施IC卡加油系统工程,以加快加油站信息化建设,旨在通过成品油零售的电子化,以IC卡取代传统的现金、油票等结算方式,实现加油款的