【摘 要】
:
随着云计算、人工智能等先进技术的应用场景日趋丰富,助力电信、商业、交通运输、医疗卫生等行业快速发展,与之相关的各种系统软件和应用程序软件的大小呈指数形式增长,据统计各种数据以每五年十倍的趋势增长,拥有强大的软件产业是实现国家科技自立自强的关键之一。在软件的开发过程中,如果未满足有关的规定要求,就会导致系统出错或崩溃,这种影响软件或程序顺利进行的问题就称为软件缺陷。软件缺陷若得不到及时发现和修正,随
论文部分内容阅读
随着云计算、人工智能等先进技术的应用场景日趋丰富,助力电信、商业、交通运输、医疗卫生等行业快速发展,与之相关的各种系统软件和应用程序软件的大小呈指数形式增长,据统计各种数据以每五年十倍的趋势增长,拥有强大的软件产业是实现国家科技自立自强的关键之一。在软件的开发过程中,如果未满足有关的规定要求,就会导致系统出错或崩溃,这种影响软件或程序顺利进行的问题就称为软件缺陷。软件缺陷若得不到及时发现和修正,随着缺陷进一步积累和传递缺陷,就会影响软件的可靠性和稳定性。当下产业界和学术界用机器学习和数据挖掘技术来代替费时费力的传统的检测方法,用以解决软件缺陷预测的问题,提升预测性能。目前软件缺陷预测已成为一个重要研究方向,具有很大的研究和实用价值。目前软件缺陷预测存在类不平衡和缺陷预测效果不佳两个典型问题。本文针对这两个问题进行系统研究,通过从数据层面改进SMOTE算法来解决类不平衡问题,结合参数优化的LightGBM集成算法来提升软件缺陷的预测性能,本文主要研究内容如下:第一,对比研究了3种经典的过采样算法和3种集成算法的组合对软件缺陷预测的性能。3种经典的过采样:SMOTE算法、Borderline-SMOTE算法、ADASYN算法;3种集成算法:随机森林算法、XGBoost算法、LightGBM算法。通过将9种方法有效结合,在10组NASA数据集上进行实验,证明过采样方法均有助于提高分类器的分类性能,在3种集成算法中LightGBM算法性能较优、耗时最短。第二,针对软件缺陷中不平衡数据内部分布较难建立分类模型的特点,本文从数据层面出发改进了应用最广泛的SMOTE过采样方法,通过及时识别噪声样本并剔除,动态调整SMOTE算法的近邻参数,合成少数类数据的方法更能保留原始分布的特征,在3种不同的分类器下用KEEL上的10组不平衡数据集,通过交叉验证证明了提出的AdaN_SMOTE算法优于其他传统的过采样算法,取得的准确率、召回率、AUC及F1值更佳。第三,针对软件缺陷预测性能不佳的问题,通过分析LightGBM算法的超参数特点,选择了3个对实验影响最大的参数:叶节点的数目(num_leaves)、树模型的最大深度(max_depth)、特征分数(feature_fraction),通过两两网格搜索进行超参数优化,进行5折交叉试验确认最终超参数值的方法,调参时间较传统网格搜索时间消耗大大减少。为了进一步验证提出的AdaN_SMOTE算法与LightGBM算法的高效性,将其应用于NASA MDP数据集,与其它过采样和集成算法的组合算法结果作对比,证明了提出的算法的高效性,得到了更佳的缺陷预测性能。
其他文献
师德师风建设是高校落实立德树人根本任务的重要环节,是打造高素质教师队伍的内在要求和重要保证,是前提和基础。师德师风是评价教师优秀与否、高尚与否、合格与否的核心指标。师德师风建设的内容是国家和教育部顶层设计的,彰显了强有力的制度保障。师德师风建设的意义重大,师德师风建设的路径宽广。
大尺寸测量领域逐步朝向高精密与智能化方向发展。动态测量误差理论以及技术的应用有助于提高大尺寸计量的测量精度和降低成本,并促进其发展,因此研究动态测量误差分离与校准技术意义重大。本文以大尺寸高精度近场平面扫描架应用为课题背景,对提高探测器扫描精度深入研究,内容如下:(1)基于课题背景研究,掌握大型近场扫描架在雷达散射应用中的原理作用,采用类比的方法,根据近场扫描架的结构、精度指标,建立基于二维PSD
绳索取心钻杆的高钻进效率、低劳动强度和节省成本的特点常常应用于地质勘探中,但其复杂的载荷状态和恶劣的工作环境可能会出现钻杆的破坏失效的现象,这将严重影响钻井工程的发展。本文实验研究真实钻探使用的27Cr Mo V基体和WC-10Co4Cr涂层在模拟钻井液下不同温度、流速下的腐蚀规律和不同载荷下的摩擦磨损规律,依据实验结果作为仿真边界条件,对钻杆在模拟真实工况下的电化学腐蚀、流动冲蚀进行多物理场耦合
生物制品作为生物医药行业中重要的产品之一,其分离纯化效率受到人们的广泛关注,层析作为蛋白质分离纯化的主流技术,其核心技术在于层析介质,层析介质结构对层析效率有着至关重要的影响。因此,研究层析介质结构与色谱性能之间的关系对于提高蛋白分离效率有着重要意义。本课题选择聚丙烯酸酯类微球作为研究对象,对其结构与色谱性能之间的关系进行了研究。主要工作内容如下:(1)以悬浮聚合法制备了甲基丙烯酸缩水甘油酯与乙二
随着石油炼化行业的快速发展,石油烃类场地污染急需重点关注,尤其是轻烃类,由于其挥发性和生物毒性而成为污染土壤/大气/水体最具危险性的污染物之一。近些年来,由于微波热修复技术相较于其它处理技术具有更快更高效等优点,逐渐成为污染土壤修复研究的热点。本文首先基于数学模型,利用COMSOL多物理场数值模拟软件建立微波辐照和红外辅助微波辐照热处理反应腔模型。通过对比实验的温度分布和升温曲线变化,验证了模型的
随着我国化工行业的快速发展,化工企业不断向园区集中,园区火灾事故所造成的危害日趋严重。若在事故发生前及时发现并消除安全隐患即可有效防止事故发生,如果在事故初期能及时采取有效措施亦可减少事故损失。安全巡检是隐患排查和发现初期事故的有效手段,可减少事故损失甚至防止火灾事故发生。针对目前常见巡检方式效率低且巡检路径不能根据火灾风险等级自主更新的缺点,本文将巡检位置的智能动态火灾风险评估与安全巡检机器人路
随着石化产业的发展,对石化设备运维的要求也在提高,像离心压缩机等行业关键设备正朝着集群化和智能化的道路发展。这种集群设备一旦发生故障,轻则造成财物损失,重则造成人员伤亡。过去的多数设备故障诊断系统不仅十分依赖技术人员的经验和专家知识,而且判断过程耗时长、通用性比较差,已经不能满足设备的智能化发展,已经不能赶得上大数据时代的潮流。所以,确保压缩机群平稳运转对企业的发展具有极其重要的意义。本文针对此问
近年来,随着新能源汽车进入市场,电池的能量密度、寿命及安全性越来越引起人们的高度关注。高容量、长寿命、高安全的新型NCM三元材料研制成为当前的研究热点。本文以提高三元材料在工作过程中的结构稳定性为手段,以延长循环寿命,为锂电池工作提供更加稳定的热安全性为主要目的,分别探究了Li[Co2xNi0.5-xMn0.5-x]O2和Li[Ni0.6Co0.2Mn0.2]1-xMxO2(M=Ga,Cr)材料的
本课题通过一种简便的氧化还原接枝法开发了一种高镍含量的聚合物层析介质。以大孔聚丙烯酸酯类微球为基质,亚氨基二乙酸改性的甲基丙烯酸缩水甘油酯作为功能单体(GMA-IDA),通过Ce4+引发其在微球表面及孔道内部进行接枝共聚。以单体接枝量为性能指标,分别对Ce4+接枝共聚反应体系的影响因素进行系统考察,发现随着GMA-IDA浓度(0.075-0.4 mol/L)、Ce4+浓度(0.0075-0.025