基于改进SMOTE的半监督极限学习机缺陷预测

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:fang200710081202fang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
软件缺陷预测研究中,研究人员通常使用有标记的数据进行预测模型的构建.但是在实际应用中往往会存在有标记样本不足的情况,为了应对这种状况,专家学者引入了半监督学习.尽管近年来不断有学者提出项目内的半监督缺陷预测方法,这些方法的预测准确度还有很大的提升空间.该文提出了一种新的半监督极限学习机软件缺陷预测方法,即基于改进SMOTE的半监督极限学习机方法.首先提出了一个改进的SMOTE采样方法来缓解类不平衡问题,其次使用了栈式去噪自动编码器来保留和获得更好的特征表示,最后为了提高模型的学习速率,获得更好的泛化性能,引入了极限学习机.通过在NASA和AEEEM数据集上的大量实验,结果表明该方法与基线方法相比获得了更好的预测性能.
其他文献
随着高通量技术的发展,已经积累了不同种类的组学数据,包括基因组学、表观基因组学、转录组学、蛋白质组学、代谢组学和宏基因组学,因此需要对不同类型的多组学数据进行综合分析,以了解疾病发展的潜在机制.机器学习算法现在正成为分析和理解疾病多组学数据的有效工具.讨论了基于机器学习的多组学数据分析的挑战及应用,包括疾病亚型识别、生物标志物发现、通路分析和药物发现及其再利用.
首先阐述了新一代天气雷达的主要特点,且由冰雹、雷电、大风、短时强降水等强对流天气现象的判断、预报预警来分析多普勒雷达在强对流天气预报服务中的应用,以供同行参考.
在新形势下,随着国民经济的快速发展以及信息技术水平的不断提高,计算机信息处理技术已经深入到千家万户,渗透到人们生产生活的各个方面.计算机信息处理技术的应用给人们日常生产生活带来了十分显著的影响,给人们生活带来了极大的便利,也为社会变革提供了技术动力和技术支持.随着计算机科学技术的不断发展和创新,国家已经进入网络安全信息时代,计算机信息处理技术在网络安全时代中的定位也越来越重要.基于此,分析了网络安全的计算机信息处理技术的重要作用,并提出相应的优化措施,促进计算机信息处理技术的发展,实现网络安全.
在高等体育院校开展创新创业教育对于提高我国体育人才培养质量具有重要意义,有利于增强体育专业人才就业市场竞争力和拓展高等体育院校生存发展空间.吉林体育学院在创新创业教育方面取得了丰硕成果,其发展经验主要有构建“一体四课堂”课程教育体系、培养“在校兼职生”社会实践能力、打造“双师型”创新创业教育师资队伍和实施“弹性学分制”人性化管理制度等措施.
无人机低空遥感技术是应用先进的无人机飞行器的飞行技能、遥控技术、通信定位、摄影摄像等功能,完成数据智能化采集与处理,从而实现数据建模与遥感数据处理.通过分析研究无人机低空遥感技术在水利工程运行管理中的应用范围及特点,从而为现代水利工程的高效运行管理提供新的科学方法及思路.
近年来,气象信息技术发展迅速,气象观测站点信息更新频繁,数据库选型多样化.为保证台站信息准确性和一致性,利用ETL同步工具,制定了各个数据库之间同步作业.当台站信息发生添加、修改和删除请求时,可以保证各数据库的台站信息同步,从而为各业务系统提供准确完整的台站信息.
对西安台PET重力仪记录的原始观测数据进行预处理,并扣除重力固体潮后,得到重力非潮汐分量.在此基础上,提取重力仪记录的同震信号.选取2018-01-23阿拉斯加湾8.0级地震作为研究对象,并以西安台CTS地震仪记录的地震信号作为对比组,分析重力仪记录的5个地震的波形特征,并从频谱分析角度,对重力仪记录地震的能力进行分析,研究其频谱特征和可靠性.
针对目前智能问答系统采用单层网络模型理解用户意图,未能准确关注用户语句中的细节特征的问题,提出了一种基于关键词分离的双层网络模型用户意图识别方法.第一层使用双向长短时记忆网络和条件随机场模型对用户语句中的关键词及问题句式进行识别,第二层将识别出的关键词作为细节特征,采用融合注意力机制的双层双向长短时记忆网络进行问题类型的识别,两层识别的结果为用户意图.实验证明,该方法的准确率和召回率平均提升了6%.针对用户数据较少时智能问答系统仍要扩展的需求,提出基于自适应扩展的智能问答系统优化方法.该方法使用基于句法结
随着计算机技术的发展,大数据技术发展日新月异,给人们的日常生活带来了巨大的冲击.建设具有中国特色的智库发展是时代的需求,也是大国发展的必要条件.将大数据技术与中国特色智库建设融合在一起,不仅是一种技术上的创新方法,同时也激发了智库建设的创新力.通过研究大数据背景下的中国特色智库建设,分析大数据和相关技术具备的优势,并给出建议,从而为提升我国智库的国际影响力发挥一定的作用.
由于网络流特征会随时间和网络环境的变化而发生概念漂移,不同类别应用的流发生漂移情况不同,导致基于机器学习的流量分类方法精度明显降低.同时,随着互联网网络技术的不断提高,使得过去采集并做好标签的大量视频流样本数据会发生很大变化,导致可用的训练集较少,需要实时采集和标注大量的新数据.针对上述问题,提出一种结合Jensen-Shannon距离、MultiTrAdaBoost和RandomForest算法的分类方法.该方法的核心思想是:度量新老视频数据流之间的相似性,根据度量结果判断采用何种模型进行分类,其中的迁