代价敏感特征选择算法及其在软件缺陷预测中的应用

来源 :南京航空航天大学 | 被引量 : 6次 | 上传用户:liudanfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人们在通信、制造、研究等领域所获取的高维数据的积累,现有的数据挖掘、机器学习算法已经不能有效应对这些海量数据。特征选择通过消除不相关特征和冗余特征达到对高维数据降维的目的,其有效的提高了数据挖掘算法的效率、精度等性能以及后续学习结果的可理解性。传统的特征选择算法都是基于类均衡这一前提提出。然而,现实生活中还存在着众多的类不均衡问题。另一方面,传统的特征选择算法也未能考虑到现实应用中存在的代价敏感问题,其在特征选择过程中未曾考虑不同类别样本的不同错分类代价。因此,本文对类不均衡问题和代价敏感问题进行研究,提出了能够在特征选择阶段解决以上问题的代价敏感特征选择算法,并进一步对基于邻接图的代价敏感特征选择算法进行了改进。主要创新和研究工作总结如下:(1)结合代价敏感学习算法的思想,将代价敏感信息引入传统的特征选择算法中,提出了代价敏感特征选择算法CSVS、CSLS、CSCS。代价敏感特征选择算法能够在特征选择阶段解决降维问题、类不均衡问题和代价敏感问题,其在公共数据集UCI以及软件缺陷预测数据集NASA上均获得了很好的性能。(2)针对Cost-Sensitive Laplacian Score算法所基于的邻接图构建后不变的缺点,提出了基于迭代思想的Iterative Cost-Sensitive Laplacian Score算法。该算法通过迭代构造邻接图,有效地提高了特征评价准则对每个特征的评估准确性。其在UCI数据集以及NASA数据集上获得了良好的性能。(3)通过将代价敏感特征选择算法引入软件缺陷预测领域,并结合代价敏感学习算法,提出了基于双重代价敏感学习的软件缺陷预测模型。该模型有效地解决了软件缺陷预测领域的类不均衡问题和代价敏感问题,在软件缺陷预测数据集NASA上的结果充分证明了其有效性。
其他文献
词语是构成文本的最小语义单元,很多自然语言处理任务都会涉及词语表示的问题。词语表示的方法最常见的是独热表示.然而此方法存在稀疏问题,且不能捕捉词语间的语义联系。以
随着信息技术的不断发展以及软件系统规模的不断扩大,开发大型软件系统所耗费的时间和成本也不断增加。而人机界面设计在软件开发中变得越来越重要,同时也变得越来越复杂,成为制
近年来Web发展迅速,将Web作为信息源的Web信息抽取也成为数据挖掘研究的一个重点。对Web信息抽取的研究已经取得了显著的成果,提出了各种各样Web信息抽取的方法,同时Web信息抽取
数字社区是数字地球、数字城市的单元节点,具有行政管理、资源共享、大众服务、监控监管、商业服务等多项功能。由于其异构、跨域、动态变化的特征,数字社区网络中原子服务及组
Ad Hoc网络是一个多跳、临时性的自组网络,由多个移动终端组成并且都可以依靠自身发送或接收信息。由于,网络中所有的节点可以自由移动并且所处的地位相等,因此,在网络中不需
近年来,由于人体动作识别在包括视频监控、人机交互娱乐、个人护理以及社会服务等方面的广泛应用,人体动作识别已成为当下计算机视觉领域最受重视的研究方向之一。人体动作识
低密度校验码(LDPC)是一种能逼近香农容量限的渐进好码,由于低密度校验码具有译码复杂度低、纠错能力强等诸多优点,近年来,它在信息可靠传输中的良好应用前景已经引起学术界和IT
裂缝是混凝土桥梁常见的病害,对桥梁裂缝的检测、识别是公路铁路保养维护部门的重要工作。桥梁裂缝检测的传统手法主要靠人工实地考察,这种方法的缺点是危险性高,精度不高,效
随着信息技术的飞速发展,设备日趋集成化与复杂化。对于如何能及时发现和预测故障,保证设备在工作期间高效、可靠的运行,以及如何从历史故障数据中形成对故障处理有效的信息,都具