文本分类中特征选择方法研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:6ri
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文本分类问题的研究中,高维度的特征表示空间会严重影响文本分类的效率,特征降维是文本分类问题中重要并且关键的一步。目前特征降维的方法已经基本成熟,从特征抽取与特征选择两个方向都能取得较好的效果。传统的特征选择方法都存在一个前提假设,即训练集与测试集中特征词服从相同的分布概率。然而在实验中可以发现在文本数据集中,训练集与测试集特征词的分布情况存在着一定的差异,并且这种差异会影响到文本分类的准确率。随着信息化技术的迅速发展与深度应用,文本作为信息的一个重要载体,涉及的内容与种类更新变化的速度也越来越快,因此文本数据常呈现动态特性,本文将这种文本数据称为动态文本数据。在动态文本数据集中,训练集与测试集中特征词的分布差异会更加明显,进而更严重地影响到文本分类的准确率。针对上述问题,本文工作的主要目的是为了找出有效的方法,以尽量消除这种差异性。首先采用风险决策方法,将特征词的选择看作是一个决策问题,从而提高算法的分类结果。此外,本文还从迁移学习的角度,探索减少或者消除这种差异性的途径。本文的主要研究内容总结如下:(1)提出基于风险决策的特征选择方法。随着人工智能的发展、知识库的形成,使得根据新信息实时乃至自动修改决策策略成为可能。本文正是基于这一理念,将风险决策方法应用到动态文本分类问题中,在特征选择时不再考虑特征词与文本类别的关联信息,而是直接采用效用函数去评价每个特征词对分类结果的贡献程度,选出一部分贡献最大的特征词组成特征词典以达到降维的目的。本文在中文邮件数据集和中文网页数据集上检查了算法的有效性,并在英文网页数据集上检查了算法的鲁棒性。实验结果表明,基于风险决策的特征选择方法可以选取出对分类结果影响更大的特征词,使文本分类的各项指标明显提高。(2)提出基于迁移学习的特征选择方法。迁移学习方法非常适合解决本文中所提出的问题,然而基于机器学习的迁移学习方法在本世纪初才开始被广泛关注,目前常用的迁移学习算法大体分为实例的迁移、特征表示的迁移、模型迁移和关联知识的迁移,但是在文本特征选择问题中仍没有一个较为合适的迁移学习算法。因此本文首先对迁移学习中比较有代表性的算法进行简单介绍,其次针对文本中特征选择问题提出改进的方法,并进行了实验验证。本文的工作思路是通过实验来发现问题,对实验结果进行深度的剖析找到改进结果的方向,并尝试从不同的角度解决问题。提出的基于风险决策和迁移量的特征选择方法,可以很好地避免传统特征选择算法中出现的问题,使得文本分类中的评价指标都有一定提高。本文的研究成果对支持向量机应用范围的拓展具有重要的意义。
其他文献
电动机在国民经济中的重要性勿庸置疑。但是对它的保护却不为继电保护工作者所重视,从而导致保护装置功效低下,保护装置经常出现拒动而使电动机损毁,或者由于保护装置的误动从而跳闸。 近年来,随着计算机技术与自动控制理论以及信号处理理论的不断发展,出现了以微处理器为核心的微机继电保护装置。与传统的保护装置相比,这种新型保护装置具有强大的逻辑分析与处理功能、可实现性能完善且复杂的保护方式、可兼有故障记录
该研究项目是广东省科学技术厅工业攻关项目(锌钡白生产转窑智能控制系统——C10909)、广州科技局科技攻关引导项目(网络环境下管控一体化的智能控制信息系统的研究开发—200
进入新世纪以来,伴随着世界格局的改变,我国的海洋局势日益紧张,研究发展高性能海军舰船成为我国建设海洋强国事业的迫切需要,对船用设备进行技术改造,完善升级伺服系统自然
矩阵式变换器作为一种全新电能变换装置,具有输入功率因数为1,输入电流谐波小,机构紧凑,易于四象限运行等诸多优点,成为未来传动技术的发展趋势。 本文重点研究三相/三相交-交
小波技术的发展为多元统计过程监测的研究和应用注入了新的生命力,本文以小波分析和主元分析PCA的基本理论为基础,将主元分析PCA去线性变量相关性的能力以及小波变换提取变量
如何有效提高信息检索技术的鲁棒性是本论文研究的中心内容。本文第一章首先简要介绍了信息检索的关键技术和研究趋势,指出了文本信息检索的三大关键技术:“查询处理”、“相似
随着科学技术的高速发展,计算机的应用日益广泛,不仅许多关键技术领域离不开计算机,就是日常生活也离不开计算机。因为历史上确有过不少由于计算机系统不可靠而造成严重后果
随着化石能源的逐渐枯竭和环境保护问题的日益突出,可再生能源的获取和利用开始受到越来越多国家的重视。风力发电作为一种清洁的可再生能源的获取手段,已经在世界各地迅速发
涡街变送器是20世纪70年代发展起来的一种新型流量仪表,由于它具有其它流量仪表不可兼得的优点,因而在市场中占有广阔的应用范围和发展空间。课题所研究的多变量涡街变送器是
随着Web2.0的发展和电子商务的兴起,越来越多的用户在博客及论坛上自由地表达着对各种产品和服务的观点。由此导致互联网上产生了大量用户评论信息,面对这些评论信息,一方面,