X<'2>统计量在文本分类中的应用研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:abc258qq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet上文档信息的迅猛发展,文本自动分类成为处理和组织大量文档数据的关键技术。本文在已有研究的基础上对中文文本分类进行了分析研究。由于χ2统计量能很好地体现特征和类别之间的相关性,因此成为特征选择中常用的评估函数。本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的文档CHI定义以及基于文档CHI的文本相似度计算公式,建立了一个适合中文文本分类的向量空间模型。常见的文本分类方法中,类中心向量法计算量小,算法简单,但分类性能较差;kNN算法分类准确率较高,但计算量大。本文结合两种算法的优点,在kNN算法中引入快速搜索机制,利用类中心向量法对待分类文档进行初次类别判定,确定kNN算法中二次搜索的文档类别范围,利用此类别范围的训练集对待分类文档进行二次类别判定,从而确定文本的最终类别。实验结果表明基于文档CHI向量和二次类别判定机制的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高kNN算法的准确率和召回率。
其他文献
本论文主要研究网格计算开发平台GBuilder代码自动生成技术,构建了一个用于网格应用开发的代码自动生成器,给出了代码自动生成器的总体设计,然后详细说明定义书、模板文件、X生
本文是对我国现阶段电子政务的实现技术进行总结的基础上提出新的电子政务技术与实现的方法和实现技巧,主要对现行电子政务中的很多关键性技术进行了论述,全文分为六个部分:
随着化石能源的日益消耗,各国政府不仅要面临着能源日益枯竭的现状,更要面对化石能源使用所带来的环境污染问题。新型可再生能源的利用是缓解当前现状的一种很好的通径,光伏发电作为一种具有无污染、无噪音、无枯竭风险等特点的发电方式,引起了各国的广泛关注。中国作为光伏发电的大国,在2017年的中国的光伏发电量占世界比重接近三分之一。新能源的大规模利用不仅可以减少环境污染、能源短缺,更是带动了产业升级和技术革命
本文对数据库技术在文件系统设计中的应用进行了研究,从数据库的角度去阐述了现代文件系统设计中所必须面对的问题以及解决方法。主要包括:(1)使用数据库日志技术来增加文件系
基于内容的音频分类是一个涵盖十分广泛的研究领域,为了使计算机能够像人那样对音频语义实现自动理解,这个领域的研究从初始对原始音频流分析向目前感知理解发展,从实际认识向抽
合成孔径雷达(Synthetic Aperture Radar,SAR)因具有全天候,全天时对地球表面进行观察的能力以及空间分辨率高的特点,使得SAR在民用和军事方面发挥着越来越大的作用。本文着
随着信息技术、网络技术的飞速发展,现代教学与传统教学相比,在教学环境、教学内容、教学手段、传播形式等方面上都出现了极大的差异。学习者在智力水平、身体条件、心理状况、
由于计算机互联网络的国际化、社会化、开放化、个性化等特点,使得它在向人们提供信息资源共享和技术共享的同时,也带来了不安全的隐患,其中就包括隐通道问题。低安全级进程可以
随着IP网规模的扩大,Internet用户和应用在快速增长,网络拥塞已经成为一个十分重要的问题,有效的拥塞避免/控制机制对于网络的发展应用十分重要。为了减轻当前IP网的阻塞现象,主
对等网络(Peer-to-Peer Network,简称P2P)是一种互联网环境中出现的新型计算模式。与传统Client/Server(C/S)计算模式不同,对等网络中的每个节点彼此之间地位是完全平等的,拥