基于迁移学习的跨项目缺陷预测方法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:anavelgato234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测技术是依靠机器学习算法来挖掘和分析软件历史数据,从而发现软件产品中存在的高风险模块,将有限的测试资源分配到高风险模块中。然而实际软件开发中,新启动项目或项目开发的初期缺少历史数据使得传统的缺陷预测技术性能较差。随着大量开源项目数据集的公开,跨项目缺陷预测技术应用而生,逐渐成为软件工程领域的研究热点之一。不同项目数据之间存在较大的差异性,迁移学习通过放宽训练数据和被测数据必须满足同分布的假设,实现知识从源域迁移到目标域。因此,基于迁移学习的跨项目缺陷预测引发了学业界和工业界的广泛关注。本文研究了跨项目缺陷预测中的最先进的方法技术,发现现有的跨项目缺陷预测仍然存在着类不平衡、条件分布及边缘概率分布差异性、特征异构、类重叠等关键问题。基于此基础,本文皆在研究基于迁移学习的跨项目缺陷预测方法,提出了创新的实用技术,提升模型的预测性能。具体研究内容如下:(1)基于改进的Tr Ada Boost的混合同构缺陷预测方法。考虑混合同构缺陷预测中类不平衡问题,通过改进Tr Ada Boost的误分实例和弱分类器权重调整方法,提出了改进的Tr Ada Boost(ITr Ada Boost)混合同构缺陷预测方法。首先,改进Tr Ada Boost中误分类实例权重的调整准则,不仅依据是否被误分,同时考虑被误分的实例的类别,对有缺陷实例误分和无缺陷实例误分设置不同权重。其次,改进弱分类器权重的设置,取代精确度,采用马修斯相关系数(MCC)作为弱分类器权重设置依据。对四个数据集中的18个开源项目的大量实验表明,ITr Ada Boost方法不仅优于其他的CPDP方法,而且可以达到项目内类不平衡预测模型的性能。(2)结合分层与最近邻的严格同构缺陷预测方法。考虑项目之间数据分布的差异性,提出了依据条件分布缩小项目差异的严格同构缺陷预测方法,是一个迭代改进的过程。首先通过对之前迭代过程中的预测结果采用投票法(Voting)得到当前被测项目模块的伪标签,然后根据伪标签以及相应类中实例个数,从源域中获取相应的近邻实例,最后根据得到的近邻实例训练分类器,以此类推。实验结果表明,与其他方法比较,该方法具有较高的AUC、Recall和可比较的pf及F-measure值。(3)基于条件对抗领域适应方法的混合异构缺陷预测方法。考虑源域项目和被测项目少量实例的标签信息,同时实现源域向目标域的迁移及分类器训练过程,提出了条件对抗领域适应CDAA(Conditional Domain Adversarial Adaptation)方法。CDAA方法由生成器、辨别器和分类器三部分组成。生成器主要实现源域向目标域项目的迁移,并且迁移中学习标签信息。辨别器主要用于辨别目标域与生成数据。分类器主要用于学习标签信息。大量实验结果表明CDAA方法能够充分利用标签信息,实现源域到目标项目的迁移,从而提高异构缺陷预测模型的性能。(4)基于无监督深度领域适应的严格异构缺陷预测方法。考虑无任何标签数据的被测项目与源域项目的异构问题,引入深度迁移学习的强大学习能力,提出了无监督深度领域适应的异构缺陷预测方法。该方法将源项目和被测项目映射到统一的度量表示(Unified Metric Representation,UMR),以此作为深度网络的输入。在网络训练中,使用最大平均差异(MMD)距离衡量源项目和被测项目之间的分布差异,使用交叉熵损失函数衡量分类误差。大量实验结果表明该方法能有效地解决源域项目和目标项目的度量元异构问题,提高严格异构缺陷预测模型的性能。(5)类重叠对跨项目缺陷预测模型性能的影响分析。为了探究类重叠问题对跨项目缺陷预测模型性能的影响程度,以28个开源项目为实验对象,实证研究了近邻清理方法(Neighbor CLeaning,NCL),K-Means聚类清理方法(K-Means Cluster Cleaning Approach,KMCCA)以及提出的改进的K-Means聚类清除方法(IKMCCA)是否可以改进先进的跨项目缺陷预测模型的性能。实验结果表明在移除了类重叠实例后,预测模型在bal,Recall和AUC性能上得到了很大提升,而且同时考虑类不平衡和类重叠问题更有助于模型性能的提升。该论文有图68幅,表32个,参考文献152篇。
其他文献
学位
视觉伺服控制以其获取环境信息量大,鲁棒性、自适应性高等优势引起大量学者和技术人员的研究兴趣。目前,国内视觉伺服控制的移动机器人在非结构化环境下实现对抓取目标的识别
长久以来,核心技术的不足和“中国品牌”的认知度低、溢价能力低,严重制约了中国企业成功迈向全球市场的步伐。为了响应国家创新型企业产业结构升级的号召,实现中国匠人精神
第一部分 症状性颅内动脉重度狭窄或闭塞患者侧支循环不良的危险因素目的:探讨症状性颅内动脉重度狭窄或闭塞患者侧支循环不良的相关危险因素。方法:选择2018年1月至2019年12月收治的163例确诊为症状性颅内动脉重度狭窄或闭塞患者,所有患者在入院14天内行数字减影血管造影(digital subtraction angiography,DSA)检查,并根据 DSA侧支代偿分级方法,将患者分为侧支循环
辐射测温技术在理论上具有无测温上限,响应速度快等诸多优势,在科研生产中,辐射测温技术的应用越来越广泛。但传统辐射测温技术在实际应用中会受到目标发射率变化、周围环境
背景自身免疫性肝炎(autoimmune hepatitis,AIH)是由自身免疫反应介导的肝实质炎症反应性疾病,以血清自身抗体阳性,高免疫球蛋白(immunoglobulin,Ig)G血症和肝组织学表现界板
礼貌语言不仅仅是交际中的礼仪,更是交际用语中礼貌程度的体现。诸多学者对礼貌语言1有着不同的定义。布朗和莱文森于1978年提出了四类主要的礼貌策略,包括讲话者使用的直言策略,积极礼貌策略,消极礼貌策略,非公开实施的礼貌策略。其中直言策略即讲话最为直接,经过积极礼貌、消极礼貌而过渡到非公开实施的礼貌策略时,礼貌程度不断提高,隐晦程度随之加深。因此译员在翻译过程中不仅仅需要传达字面意思,更要通过脱离语言
传统的土壤养分含量获取方法准确性强、精度高,但是周期长、基础工作量大,无法满足现代农业快速测定土壤养分的要求。随着遥感技术的快速发展,高光谱遥感在许多领域中已得到
自2002年上海黄金交易所组建以来,中国黄金市场经历了从无到有,交易规模从小到大,目前已发展成为全球最重要的黄金市场之一。但上海与伦敦市场始终存在着一定的价差,且近些年
作为远距离火灾扑救的首要设备,消防水炮具有喷射流量大、输送位置调整灵活等优势,是实现灭火救援、火场快速降温、遏制次生灾害发生的关键消防装备之一。伴随着各类应急救援