【摘 要】
:
软件缺陷预测是软件质量领域的热点话题,它是基于历史提交代码中的静态代码特征和代码缺陷记录来预测软件缺陷,从而避免软件缺陷的发生。目前有许多研究者通过机器学习的方式来对软件缺陷进行预测,然而传统的软件缺陷预测方法对于软件缺陷的预测效果并不好。这是因为软件缺陷预测往往存在以下4个问题:软件缺陷数据集的特征量纲不同且有许多冗余特征、软件缺陷数据集的数据分布不均衡、机器学习算法中的交叉熵损失函数容易忽视难
论文部分内容阅读
软件缺陷预测是软件质量领域的热点话题,它是基于历史提交代码中的静态代码特征和代码缺陷记录来预测软件缺陷,从而避免软件缺陷的发生。目前有许多研究者通过机器学习的方式来对软件缺陷进行预测,然而传统的软件缺陷预测方法对于软件缺陷的预测效果并不好。这是因为软件缺陷预测往往存在以下4个问题:软件缺陷数据集的特征量纲不同且有许多冗余特征、软件缺陷数据集的数据分布不均衡、机器学习算法中的交叉熵损失函数容易忽视难分类样本、人工选取机器学习算法的超参数性能无法达到最优等问题。为了解决上述问题,本文提出基于特征选择及混合采样的LightGBM软件缺陷预测模型,该软件缺陷预测模型能依次解决软件缺陷问题中存在的4个问题。本文的主要工作如下:(1)针对特征量纲不同且有许多冗余特征,本文使用Standard Scaler和Robust Scaler的组合标准化方法对原始数据集进行标准化,将软件缺陷数据集进行缩放并剔除离群值来消除不同特征量纲的影响。使用基于随机森林和RFECV的组合特征选择方法,从166个SQ违规特征中选取45个SQ违规特征作为最优特征子集。(2)针对软件缺陷数据集的数据分布不均衡,本文使用基于SMOTE-ENN的混合采样算法来均衡软件缺陷数据集。通过使用SMOTE算法对少数类样本进行过采样,使用ENN算法对重叠样本进行数据清洗,将数据集中的多数类样本与少数类样本之比从33.18:1均衡至1.16:1。(3)针对交叉熵损失函数容易忽视难分类样本,本文使用Focal Loss损失函数,通过调节(α,γ)参数来改变LightGBM算法对于易分类样本和难分类样本的关注度。(4)针对默认超参数的FL-LightGBM算法预测性能未达到最优,本文使用贝叶斯优化算法来自动调优FL-LightGBM算法中的10个主要超参数,使得超参数优化后的Bayes-FL-LightGBM算法在各项评估指标上都有所提升。
其他文献
2018年起,共青团中央维护青少年权益部、中国互联网络信息中心每年对未成年人互联网使用情况开展全国性调查,并向社会公开发布。2020年度的调研覆盖了全国31个省(自治区、直辖市)的小学、初中、高中及职业学校学生,并首次针对家长的网络观念和教育方式进行调查,总样本量超过3.5万份,其中学生样本29155份,家长样本5965份。未成年人互联网使用的主要趋势和特点未成年网民规模持续增长,触网低龄化趋势更
在我国的税制中,个人所得税是和人民自身利益联系最为紧密的一个税种,同时也十分的受关注。所以,个税的改革涉及全社会的方方面面,离不开各方面利益关系和各部门的配合与协调。本文从我国2018年个税改革的内容出发,理性分析和评价目前我国个税的现状,指出我国个人所得税改革的必要原因,以及面临的重大问题,最后提出关于个税改革的方向和具体内容的设想。
随着我国经济的快速发展,国家越来越重视个人所得税的改革创新工作。为了进一步提升个人所得税的发展管理效率,必须根据实际情况以人民群众的最广大利益为主,增强社会各界的关注和认可,从现有的问题进行延伸,了解收入及分配的各个阶段标准,尽可能地减小改革阻力,因此本文主要针对关于个人所得税改革现状与未来的思考进行简要分析,并提出合理化建议。
数学是一门基础性强,并且应用性也非常强的学科,如果学生能够学好数学,且在小学阶段就能够打下扎实的基础,对他们将来的生活以及学习就会有很大的益处。所以作为小学阶段的数学教师,就要想尽一切办法为学生创造良好的学习环境,吸引学生的学习兴趣,在保证自己课堂顺利进行的基础上,对自己的数学课堂进行创新优化,在教师与学生共同的努力下,打造一个高质量、高效率的小学数学课堂。本文基于小学数学课程发展现状,探讨基于联
一、徇私舞弊徇私动机的认定及罪数"徇私舞弊"是指国家机关工作人员为徇私情、私利而舞弊。徇私之私包括私利和私情两方面。即为了私情或私利而做不合法的事情。故意违背事实和法律,伪造材料,隐瞒情况,弄虚作假的行为。渎职犯罪中有14个涉及"徇私舞弊"的罪名。司法机关面临的重要难题之一,是不能证明行为人的徇私动机。其实不
赵朴初居士在《佛教与中国文化的关系》一文中写道:佛法的基本内容可以用"四圣谛"来概括(谛的意思是真理):苦谛,指经验世界的现实;因谛(或集谛),指产生痛苦的原因;灭谛,是痛苦的消灭;道谛,指灭苦的方法.佛经所说的道理非常多,其实都是围绕四圣谛而展开讨论的.四圣谛所依据的根本原则是缘起论.佛教的所
随着社会的发展、经济的进步,素质教育理念被大力提倡。与此同时,教育领域也越来越注重学生核心素养的培养。本文重点针对基于核心素养的小学数学课程建设进行了详细分析,以供参考。
"互联网+"教育,是当前数学教学改革的主要趋势。在实施小学数学教学的时候,教师要把握此背景,灵活地应用互联网,丰富教学资源,拓展教学时空,提高数学的教学效果。在本文中,笔者将结合教学经验,介绍应用互联网、丰富教学资源、拓展教学时空的教学策略。
四川清音是流行于四川地区的传统曲艺形式,是四川地区具有代表性的非物质文化遗产(以下简称“非遗”)。当前社会文化环境的嬗变使得四川清音不再囿于传统的传播方式与文化场域,四川清音的对外传播对其保护与传承以及实现文化“走出去”战略均产生了积极意义。基于“非遗”视野,结合当前传播困境与未来发展趋向观之,更需要在多元文化背景下探索四川清音的传播方式与观众拓展方式,让四川清音的对外传播产生更大的现实价值。
人民币“锚效应”是履行国际货币职能的重要表现。本文使用经典的“货币锚”模型,将“一带一路”沿线国家划分为六个区域,利用2009年7月至2021年6月汇率的月度数据,对共建“一带一路”前后人民币货币锚效应进行实证分析。结果表明:共建“一带一路”通过贸易网络显著提高了人民币货币锚效应。中国应抓住共建“一带一路”机遇,加强与“一带一路”沿线国家和地区的贸易与投资联系,提高人民币的影响力;推动人民币汇率形