中文文本分类中特征选择方法的研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:l525721
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的蓬勃发展,加速了人类信息化时代的到来。在高度信息化的今天,大量庞杂的信息充斥着网络,而且信息的规模还在不断地急剧增加。因此人类希望能快速查询信息、准确获取信息的需求与日俱增。文本分类就是一种有效解决这种需求矛盾的手段。近年来,多种统计理论和机器学习方法被用到文本分类中来,使其成为目前信息检索领域研究的热点方向之一,并正在不断地被应用到实践中去。   文本分类系统的核心任务是特征选择和实施分类算法。目前,文本自动分类一般采用由特征项组成的向量来表示文本的,即VSM模型,其特点是特征空间存在高维性,这种高维性不但影响了分类系统计算的复杂度,更重要的是高维特征空间存在大量的噪声特征,因此,特征选择是一个计算特征权值并同时剔除噪声特征的过程,并为后面分类算法提供有效的数据支持。   目前常见特征选择方法如IG、CHI、ECE等约几十种,而TFIDF因为其简洁有效性成为目前常用的一种特征权值计算方法,但其未考虑类别信息、词频分布等细节因素,它的一些改进算法有效地考虑了这些因素但同时也为计算带来了更多的复杂性。   本文提出的TFCW方法更符合文本分类下特征选择任务需求的特点,体现了特征频度、类内外特征分布、低频特征处理等更多实际因素,但同时也体现了公式的简洁性,降低了运算复杂度。TFCW方法使用的前提是训练集必须为一个均匀语料库,本文在综合了搜狗语料库与复旦大学文本语料库的基础上,整理出了一份质量较好的均匀训练语料库,并在该语料库的基础上,完整实现了一个中文文本分类系统,通过比较TFCW方法与传统TFIDF及其改进算法,证明TFCW方法是行之有效的。本文还尝试将该方法应用于词间相似度计算中,也取得了一定的结果。
其他文献
随着网络技术的发展,电子商务渗透到贸易活动的各个阶段包括信息交换、售前售后服务、电子支付、运输等等。电子商务协议就是为了完成电子商务活动而设计的协议。作为一类特殊
学位
随着科技的发展,特别是传感器网络、互联网等技术的广泛应用,数据流出现在越来越多的应用系统中,于是,数据流管理系统的构建、优化等技术得到密切关注。并且,由于应用系统对数据流
随着现代外科手术的发展,手术门类越来越丰富,在手术训练中需要掌握的技巧和知识越来越多,从而导致尸源和实习机会的相对减少,医学院学生在解剖室或手术室中的训练相对不足。另一
随着全球汽车产量的逐年提高,相应地轮毂市场需求也在迅猛增长,国内80%的汽车轮毂是由铸造而成,铸造而成的轮毂需要进行精加工,而由混流生产线生产的轮毂在再加工时若对其类型进行
软件工程发展到今天,仍然有很多因素无法控制。如何有效的保证软件质量仍然是软件工程的重大难题,同时这也是决定项目成功与否的关键因素之一。对软件质量进行量化管理并客观的
学位
离散傅立叶DFT变换作为数字信号处理中最基本的运算之一,在很多领域中发挥着重要的作用,而快速傅立叶变换FFT作为DFT的快速算法使得傅立叶变换的运算量大大减少,且实现起来更方
随着分布式应用的迅速发展,不同硬件平台和网络环境,特别是不同数据库之间的互操作问题越来越复杂,为解决这一问题,业界提出了中间件的概念,如今已成为当前研究课题的一个重要方向
随着信息技术的不断发展和广泛应用,数据量呈爆炸式增长,网络存储系统越来越受到人们的关注。作为网络存储系统核心部件的集群文件系统,如何提供高吞吐率、高带宽、低延迟、高可
软件定义网络(SDN:Software-Defined Networking)采用了数据平面与控制平面相分离的开放式系统架构,可有效地简化网络的控制与管理,促进网络的创新。早期SDN控制平面向外提供低
DNS(Domain Name System,域名系统)作为互联网的基础设施,支持了绝大多数互联网应用的顺利运转,从根本上保障了互联网上各主机之间的互联互通。因此如何有效的实时监控域名服务
学位