基于迁移学习的跨项目软件缺陷预测关键技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：snrgw91924

【摘要】

：

随着软件应用的普及和深化,其多样性和复杂度都不断提高,相应的,对软件质量保障技术也提出了更高的要求。在软件生命周期中,软件缺陷预测技术对保障软件质量具有重要作用。如

【作者】

：

邱少健

【出处】

：

华南理工大学

【发表日期】

：

2004年期

【关键词】

：

软件缺陷预测跨项目软件缺陷预测机器学习迁移学习最大均值差异

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着软件应用的普及和深化,其多样性和复杂度都不断提高,相应的,对软件质量保障技术也提出了更高的要求。在软件生命周期中,软件缺陷预测技术对保障软件质量具有重要作用。如果可以在软件开发和测试阶段提前检测出软件的缺陷,将有助于质量保障团队发现软件的潜在问题、了解软件的缺陷分布,进而合理地分配测试人员和资源,提高软件质量和节省测试成本。近年来,学者们开始关注软件缺陷预测技术,并尝试使用机器学习方法检测软件中有缺陷倾向的程序模块,取得了一定成效。然而该技术在实际应用过程中,容易遇到软件冷启动和带标注数据稀缺的问题。为了使软件缺陷预测技术可以更早地运用于软件项目的生命周期中,跨项目软件缺陷预测技术作为一种可行且有效的解决方案被提出。跨项目软件缺陷预测方法旨在将缺陷预测知识从成熟项目(具有标注数据的源项目)中迁移到没有标注数据或标注数据非常有限的目标项目中,从而将源项目训练的缺陷预测模型用于检测目标项目的程序模块是否具有缺陷。目前跨项目软件缺陷预测技术还存在一些问题未被解决,影响了模型预测性能。本文针对该技术中存在的跨项目数据类不平衡、负迁移、分布欠适配和可迁移语义特征缺失四个问题进行研究。首先围绕类不平衡问题开展方法研究,然后在数据类平衡的基础上,利用和改进迁移学习算法和模型,针对数据负迁移、分布欠适配和可迁移语义特征缺失三个问题设计对应的解决方案。具体研究工作包括:(1)研究解决跨项目软件缺陷预测任务中的类不平衡问题。目前跨项目软件缺陷预测研究中处理类不平衡问题多采用二次采样和代价敏感学习的类不平衡学习方法,本文拓展了类不平衡学习方法比较范围,基于5个软件缺陷数据仓库中的31个开源项目开展了较大规模的实验,并引入改良的统计分析方法,对15种类不平衡学习方法和其产生的37504个预测结果进行分析,讨论和评估了各方法在不同数据集和基分类器下的有效性,为本文后续研究提供数据类不平衡处理基础。(2)探索解决跨项目软件缺陷预测过程中无关数据引发的负迁移问题。目前多数处理跨项目数据负迁移问题的方法,尚未考虑源项目中实例簇的迁移性能可能较差的情况。本文基于归纳式迁移学习方法,提出了一种多簇权重分析方法,其通过使用小比例的目标项目内标注数据,评估源项目中各簇对目标项目缺陷预测任务的辅助能力;随后,本文将核均值匹配算法与多簇权重分析方法相结合,调整源项目中实例权重和各簇的权重,从而减轻跨项目软件缺陷预测任务中不相关数据所带来的负面影响。(3)探索解决跨项目间因数据分布存在差异,影响缺陷预测性能的问题。目前多数基于分布适配的跨项目软件缺陷预测方法主要适配了数据的边缘概率分布,而未充分考虑条件概率分布差异,存在跨项目间数据分布欠适配的问题。为了解决这一问题,本文提出了一种基于概率分布自适应的联合分布匹配算法。该算法引入最大均值差异度量项目间联合概率分布的距离,旨在通过直推式迁移学习方法,为源项目实例重新分配权重,进而最小化项目间数据的边缘概率分布差异和条件概率分布差异,从而提高跨项目软件缺陷预测模型的预测能力。(4)探索解决跨项目软件缺陷预测任务中可迁移语义特征缺失的问题。由于项目间数据存在分布差异,现有研究中通过深度学习提取的源项目语义特征往往不能很有效地运用到目标项目的缺陷预测任务中。针对项目间可迁移语义特征缺失的问题,本文提出了迁移卷积神经网络模型。该模型将程序源码解析为整数向量作为神经网络的输入,并将数据分布匹配层添加到卷积神经网络中,通过同时最小化项目之间的分类错误、分布差异和流形正则项的方式,提取可迁移的深度学习生成特征,并将其运用到跨项目软件缺陷预测任务中,进一步提升了预测模型的性能。

其他文献

人性、人伦与治国之道

本文的主题是梳理苏轼进士及第至熙宁变法前夕哲学思想的内涵和特色,重点探讨他关于人性的独特见解,分析其人性论与政治思想之间的内在关联。在《扬雄论》等早期著述中,苏轼

学位

苏轼早期人性论政治思想

“星级评价”在小学品德与生活课堂中的应用

<正>品德与生活课程是一门活动型综合课程,课程评价不仅关注学习结果,更要重视学习过程和过程中各方面的表现进行综合性评价,激励每一位学生参与学习并更有效地促进其成长。

期刊

星级评价品德与生活学习单

功能化金纳米簇的合成及其在荧光阵列传感分析中的应用

直径小于2 nm的荧光金纳米簇由于具有独特的尺寸和依赖性理化性质（包括荧光信号强和出色的生物相容性）而受到越来越多的关注。因此,荧光金纳米簇被广泛地应用于生物医学研究领

学位

功能化金纳米簇荧光传感器阵列蛋白质区分含硫物质区分血清区分

孙平范:走向世界的中国“智”造

<正>从手摇机到电脑横机,他用创新缔造了横机的革命式跨越,填补了国内空白,实现了对进口产品的替代;从本土崛起到收购瑞士事坦格,他用科技之光照亮了一个产业的辉煌,引领了行

期刊

电脑横机模型样机针织机械纺织行业产销量针织设备针织企业

因果连词“所以”“因此”“结果”的多角度对比及对外汉语教学

本文所选取的研究对象——连词“所以”“因此”“结果”,它们在句中都可以表示因果关系,但三者在具体用法上又有着不同。在前人的研究成果中,大多数学者主要集中在对三者的

学位

所以因此结果对比分析教学建议

架上绘画与商业视觉元素互为影响的艺术探索

在漫长的历史发展中,广告文化是社会生产力和社会文化发展到一定阶段的产物。它作为商业竞争的客观伴随,不仅体现了国家的文化背景、社会价值观,也带有一定的社会话语权,从而

学位

广告文化波普艺术商业文字商业图像后现代广告

探索金属焊接雕塑的意象性表达

随着全球一体化进程的不断加快,中国文化与世界各国文化相濡以沫,互相汲取,艺术的发展呈现多样性,科技革新以及文化的欣欣向荣为现代艺术发展提供了坚实可靠的平台。本文旨在

学位

雕塑金属焊接意象性传统文化

基于TOD理念的快速公交服务网络设计优化方法研究

快速公交是补充城市公共交通运力、提升城市出行效率和解决城市拥堵的重要交通方式。快速公交通过提供快速、大中运量、高品质的出行服务,实现城市中主要客流集散点的高效连

学位

TOD城市空间结构城市街区公交走廊快速公交服务网络设计

《夏洛特烦恼》的视听呈现

由闫飞、彭大魔执导的《夏洛特烦恼》在上映之后,很快就掀起了一轮令人惊叹的票房高潮,电影也获得了电影百花奖的最佳故事片提名。在近年来的喜剧电影中,《夏洛特烦恼》无论

期刊

《夏洛特烦恼》闫飞彭大魔视听呈现

共振能量转移体系的构建及其在miRNA分析检测与成像中的应用

在过去的几十年里,共振能量转移（Resonance energy transfer,RET）作为一种光谱技术被广泛应用于生物分子的结构鉴定及其相互作用,体外分析,体内分子监测,核酸检测分析,信号转导

学位

单层石墨烯量子点FRETNSET双重能量转移X-DNAmiR-21

基于迁移学习的跨项目软件缺陷预测关键技术研究

其他学术论文