基于机器学习的软件缺陷预测方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:shengweizheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测作为当今计算机科学研究的热点领域之一,在最近十多年以来取得了重大的发展。软件缺陷预测的主要目的是为软件测试人员做出指导,指引软件测试人员重点测试软件系统容易出现问题的地方,避免测试人员在没有问题的地方浪费大量的人力和物力成本。软件缺陷预测主要是通过对历史数据的分析和软件特征的提取,通过建立缺陷预测模型来挖掘软件中潜藏的缺陷。软件缺陷预测不仅丰富了缺陷预测理论体系,而且还带动了计算机科学中其他方面的发展,因此具有重要的研究意义。本文从特征选择和软件缺陷预测方法两个方面进行了研究。本文的主要研究内容如下:针对缺陷数据集中有缺陷数据太少,数据集中属性的冗余项过多,数据集中的类不平衡和特征不明显问题,本文提出了一种加权最近邻特征选择方法。该方法对最近邻特征选择方法进行了改进,使用距离加权和属性加权两种方式进行权重更新,对不同的属性和不同的距离赋予不同的权重,对权重高的特征优先进行选择。将本文提出的特征选择方法在NASA公开数据集上进行实验,实验中采用RF、OR、CL、GR四种常用的特征选择方法和提出的加权最近邻特征选择方法做实验对比,并且绘制了10幅加权最近邻特征选择方法和RF方法的实验效果对比图。与此同时,为了进一步证明提出的加权最近邻特征选择方法是有效的,通过采用Wilcoxon符号秩检验方法和Cohen’s效应量方法,对实验的结果做数据表进行统计和分析。实验结果表明,本文提出的加权最近邻特征选择方法优于上述四种方法。针对现有模型对软件缺陷预测准确度低的问题,本文提出了一种基于关联规则和人工神经网络相结合的软件缺陷预测方法(GRAR_ANN)。该方法由数据处理和模型训练两大部分组成。数据处理是对数据集中的特征采用加权最近邻特征选择方法进行特征选择;模型训练由GRAR-Mining算法和GRAR分类算法组成。将特征选择之后的数据集在本文中选用的两种人工神经网络(MLP和RBFN)上进行训练,得出GRAR-Mining算法,将GRAR-Mining算法的输出作为GRAR分类算法的输入。选用特征和样本分布均不同于训练集的数据集作为测试集,按照这个规则选用10个公开的数据集设计实验进行验证,并和常见的15种缺陷预测模型的结果做对比。实验结果表明,提出的GRAR_ANN缺陷预测方法比对比方法的准确率提高了5%左右。因此,GRAR_ANN缺陷预测方法比同类预测方法有更好的实验效果。
其他文献
2008年,一系列重大公共事件引发一连串网络大事件。从抗击冰雪、两会当“代表”、反对“藏独”、反击CNN到华南虎照事件尘埃落定、瓮安“6·28”打砸烧事件,再到明星艳照大肆
自从玻色-爱因斯坦凝聚现象在稀薄原子气体中实现以来,这个领域的相关研究引起了人们广泛的关注。玻色-爱因斯坦凝聚具有非常奇特的性质,不仅为量子理论的研究提供了一个可靠
纽约画派,或者说抽象表现主义,对国内稍微了解一点西方艺术史的人来说,也许并不陌生。从多年前小学美术课本上出现的波洛克滴洒绘画,到后来高中艺术鉴赏课上幻灯片放映的德·
1929年12月召开的古田会议,解决了建设新型人民军队的问题,古田会议决议是党的建设和军队建设的纲领性文献。周恩来虽然没有参加古田会议,但他对古田会议的成功召开、古田会
第三方物流是现代物流社会化和专业化的先进形式,最大程度满足了社会化大生产对于规模与效率的需要,以及物流与信息相结合所体现的无限潜能。本文分析了山东省第三方物流的发
拨备是商业银行预先从当期损益中拨提相应准备金,用于弥补其各项资产面值与预计可收回金额之间的风险补偿金,不良贷款拨备率是监管机构衡量商业银行贷款损失准备金计提是否充
以计划行为理论为基础,选取中国19个省市专业队的350名正在接受治疗的受伤运动员作为研究对象,现场匿名填写计划行为量表、行动计划量表、预期后悔量表及遵医行为量表,构建并
<正>9月7日至8日,2018医药创新与发展国际会议在烟台举行,约800名来自国内外政府机构、科研院所、有关企业的代表和专家学者汇聚烟台,"论道"医药产业创新发展。本次会议无论
针对水利建设工程实施过程中诸多不可预测的情况造成工程成本增加与工期延误的问题,从水利工程承包商的角度出发,通过文献回顾、问卷调查及深入访谈3种方式对水利工程成本控
农村住房作为农民的一项重要资产,由于种种限制无法转变为资本进行流通,其财产属性难以发挥,农民融资陷入困境。近年来,随着农村经济的发展,农民融资需求的扩大,开展此类抵押