基于两步策略的英文文本分类研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:new_java
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入九十年代以来,互联网得到了极大的发展,产生了海量的非结构化和半结构化文本信息。如何对之进行有效的组织和管理,使用户能方便、准确地查找到所需要的信息,是信息处理的一大目标。基于人工智能技术的自动文本分类已成为信息处理的关键技术,它能根据文本的语义将大量的文本自动分类,有效地解决有关文本信息的组织、管理等关键问题。 文本分类的方法很多,典型的有朴素贝叶斯分类器、基于向量空间模型的分类器、基于实例的分类器和用支持向量机建立的分类器等,以及由几位学者提出的基于两步策略的高性能文本分类方法,主要是对中文两类文本、多类单标签文本分类。这就提出了两个问题:①能不能将两步分类策略从单标签分类问题推广到多标签 (兼类) 分类问题? 如果能,如何将它推广到多标签文本分类? ②能不能把两步策略应用到英文文本分类中去? 本文阐述了文本分类的关键技术,包括分类的一般过程、特征抽取、特征选择和分类方法等;重点描述、分析和对比了常用的特征选择算法和分类方法。提出了基于两步策略的三种多类多标签英文文本分类方法,1) 以贝叶斯为分类器,以抽取词根的单词和未抽词根的单词分别作为第一、第二步使用特征的两步方法:2) 以贝叶斯和决策树分别为第一、第二步使用分类器的两步方法:3) 以ID3、C4.5和贝叶斯的组合分类器对部分特定类别进行分类,然后对余下类别采用方法2进行二次分类的混合两步方法。在此基础上,还提出了一种优化算法,在Reuters-21578 语料上的实验表明,本文提出的方法具有较高的性能,三种方法中,方法3具有最好的性能。
其他文献
智能卡是一种芯片安装在带有符合ISO/IEC7816标准塑料或者其它材质的基座上集成电路卡,内部有微处理器、存储器以及输入/输出单元。智能卡已经应用到社会生活的方方面面,包括移
因特网的新型应用网络视频分享目前采用中央服务器架构,不能满足用户激增的需求,服务器负载大,成本高,用户体验也得不到提高。网络视频分享这一应用的特点是:视频文件小,视频
随着社会的发展,如何利用科学的方法管理一个国家、地区,是社会管理者注重的首要问题。因此,加强信息化的速度,即建设“数字城市”已成为一个必然的选择。“数字城市”是物质城市
在我国,铁路的运输量十分巨大,大多数铁路系统的运行位置的历史重演是依靠手工记录的文档或者调度监督系统的回馈数据来完成的。由于记录点间距离较大,传感器本身的功能限制,所以
JPEG2000是新一代静止图象压缩标准,它具有现代图象压缩所要求的新性能如良好的低比特率压缩性能、支持图象质量和分辨率渐进传输、支持感兴趣区域编码等,可应用于数码相机、
P2P(Peer-to-Peer)技术具有分布式的特性并且能够充分利用资源,这使得基于其上的应用得到了快速的发展。但是,由于P2P网络缺乏集中控制,free-riding现象,即“搭顺风车”现象,
虚拟现实技术是近年来新兴的一项崭新的综合性信息技术,它融合多种信息技术的最新发展成果,为我们创建和体验虚拟世界提供了强有力的支持,并广泛应用到了社会的各个领域。 在
虚拟现实技术在工业生产以及社会生活中的应用日趋广泛。随着虚拟场景的复杂度不断提升,多物体空间运动成为大多数虚拟现实系统需要解决的关键问题。通过对现有路径生成算法进
构件技术是继面向对象技术之后的又一新兴技术。随着构件技术的迅速发展,构件测试作为保障构件质量的主要手段,日益受到人们的关注。但构件技术的新特性,如封装、信息隐蔽等,也制
随着计算机网络的日益普及,信息安全已经成为一个急待解决的世界性问题。大规模、分布式攻击的发生也越来越频繁使传统的安全手段面临严峻的挑战,而黑客入侵方法的更加多样化和