【摘 要】
:
特征选择方法在数据分析与降维中发挥着重要的作用。目前很多特征选择方法存在着一些共性问题,如大量的参数调节、运行时间长、特征的预测效果差等,如何开发出一种适合实际环境使用、减少人为干预的高性能特征选择方法目前仍是一个挑战。另一方面,特征选择与因果发现领域的贝叶斯网络结构学习理论存在着很多重要的联系。目前大多数因果学习算法存在着时间复杂度高,精度差的缺点,此外它们在流特征环境、连续型数据与非线性与弱加
论文部分内容阅读
特征选择方法在数据分析与降维中发挥着重要的作用。目前很多特征选择方法存在着一些共性问题,如大量的参数调节、运行时间长、特征的预测效果差等,如何开发出一种适合实际环境使用、减少人为干预的高性能特征选择方法目前仍是一个挑战。另一方面,特征选择与因果发现领域的贝叶斯网络结构学习理论存在着很多重要的联系。目前大多数因果学习算法存在着时间复杂度高,精度差的缺点,此外它们在流特征环境、连续型数据与非线性与弱加性噪声数据的复杂情况下均无法使用。本文研究了相关的特征选择方法与贝叶斯网络增量学习方法,分别对以上存在的问题并进行分析并解决,具体工作如下:首先,我们将最大相关最小冗余准则与具体的分类器结合,提出一种“封装式”的特征选择方法FEFS,该方法依次为每个特征计算评分,然后再通过分类器计算并判断这些特征是否能有效提高模型精度,从而决定是否选择该特征。该算法将特征选择过程与预测过程同步进行,有效地减少了算法参数的调节过程,能够使得模型在选择最少特征的情况下达到最好的效果。其次,我们基于FEFS算法设计出一种应用在肺结节语义特征预测领域的计算机辅助诊断系统(CAD)。该系统使用肺结节CT图像中的数字特征,通过快速的特征评分计算与分类器搜索,有效的剔除了大量无效的图像特征,通过模型训练最终输出对医师具有重要指导作用的肺结节语义特征等级。实验表明,所提出的方法在具有较好性能表现。然后,基于对数似然函数,我们重新定义了相关特征和冗余特征,从因果图结构的角度提出了一种比较的方法来识别目标节点的候选邻居节点。基于该识别方法,我们提出了一种从非线性弱加性噪声数据中学习因果结构的算法NLCDSF,该算法作为一种贝叶斯网络结构增量学习方法,它在线分析特征之间的关系,以比较的方法快速识别目标节点的候选邻居,并有效缩小后续定向过程的搜索范围。在模拟数据集上的实验表明,所提出的算法在精度与时间上均具有较强的优势。最后,为了表明NLCDSF算法在真实数据中的效果,我们将该算法应用在某发电厂的设备监测数据中,通过将NLCDSF与长短期记忆网络结合,开发出一套完整的设备检测系统。设备监测数据在线输入系统中,使用NLCDSF算法学习各个监测点之间的因果网络图,将目标测点的马尔科夫等价类作为LSTM的输入,预测目标测点在将来一段时间内的波动趋势,以供技术人员分析与排查设备故障。实验表明所提出的算法在实际生产环境中具有较好的效果。
其他文献
阵列天线方向图综合是阵列信号处理领域的重要研究方向之一,具有重要应用意义。其主要目的在于确定阵列天线的激励系数、阵元数目和位置等参数,使阵列天线的辐射特性满足期望的指标要求。然而,在很多实际应用场景下,为了节约成本简化阵列馈电网络设计复杂度,希望通过唯相位方向图综合的方式实现期望辐射特性,这种方法只使用移相器实现波束控制,能够实现阵列馈电网络的一致性。本文主要研究大型阵列天线的唯相位方向图综合的相
作为车辆的关键标志,车标不易被篡改,对车辆信息的提取有着重要的辅助作用。传统基于手工描述子的车标检测算法存在精度低、速度慢等问题,而基于深度学习的检测算法则难以平衡速度和精度。本文基于卷积神经网络(convolutional neural network,CNN)对车标检测进行研究,在现有目标检测算法的基础上,进行了改进和优化,提出了两种车标检测算法:基于YOLOv3的快速车标检测算法YVLDet
旋转机械是现代工业系统中最为重要的组成部分,随着大数据和人工智能等先进技术的发展,深度学习已经成为智能故障诊断领域的热门话题。然而在实际工况下,智能故障诊断方法的研究过程中往往会出现的以下两个问题:(1)标签数据不足,导致模型无法收敛。(2)不同工况,不同类别空间的故障诊断方法难以通用。因此,如何在少量样本下完成故障诊断,如何实现训练数据和测试数据不同工况下的高精度故障诊断以及跨部件的智能故障诊断
工业控制系统(Industrial Control System,ICS)测试床仿真模拟工业生产过程,广泛用于生产控制优化、计划与资源优化、人员培训、安全评估与安全测试研究等。现有包含实物的实物复制测试床、半实物测试床搭建成本较高,且测试床规模远不及实际系统的规模,导致基于测试床的相关研究具有一定的局限性;基于软件联合的纯软件仿真类测试床,不便于开展网络攻防等交互性要求较高的相关研究与测试。针对以
随着科技的迅速发展,实际应用领域涌现出大量流数据,这些数据不仅具有海量、快速、含多个标签与特征高维的特点,且其数据分布会随时间动态变化引起概念漂移等问题。因而如何在多标签流数据环境下快速挖掘有效信息,成为数据流分类的重要研究任务之一。本文旨在针对概念漂移和流特征的多标记流数据分类问题开展研究,主要研究工作包括:(1)针对多标签流数据的概念漂移问题,提出一种基于核极限学习机的数据流集成分类方法。首先
伴随着大数据时代的来临,数据获取的方式和途径较以往更加便捷,大量的高维数据出现在各个应用领域,如人脸识别等。然而,这些高维数据会大大增加计算量,同时其冗余特征也会影响数据分析的结果,很多应用场合必须进行降维。因此,高效的数据降维方法在实际应用中具有重要意义。近年来,图模型被广泛地用于数据降维研究工作中,图嵌入方法作为其重要的技术手段引起了很大的关注。以图判别嵌入为代表的传统图嵌入方法使用k近邻去选
隐写是一种基于信息隐藏的隐蔽通信技术或隐蔽存储方法,通过难以感知的方法将秘密信息隐藏在可以公开的载体中。在隐写与隐写分析的长期对抗发展过程中,隐写研究者提出了丰富的图像隐写思路与方法。无嵌入图像隐写算法不存在被修改的载体图像,虽然理论上具有很高的安全性,但是普遍存在图像特性单一和生成图像质量差的问题。嵌入式图像隐写算法通过修改载体图像的方法进行秘密信息写入,因此容易留下修改痕迹而受到隐写分析模型的
随着互联网的不断发展,视频网站拥有巨大的用户访问数量能够给服务提供商带来可观的收益,向用户推荐流行度尽可能高的视频可以吸引更多用户的关注;同时为了缓解核心网络的流量负载,降低用户获取视频的时延,制定以视频流行度为缓存替换策略的算法可以增加缓存的命中率,提升用户的服务体验质量。因此,视频流行度的预测问题成为了一个急需解决的问题。本文针对传统的视频流行度预测算法在中长期预测中存在预测精度低、自适应性弱
近几年来,卷积神经网络在计算机视觉,自然语言处理和语音识别等领域上取得了突破性的进展。尽管卷积神经网络具备强大的特征表达能力,但模型的过参数化和高计算复杂度使其在训练和推理过程中消耗大量硬件资源,让模型部署在资源受限的嵌入式设备上变得异常困难。因此,研究如何在不降低网络精度的前提下压缩神经网络模型,对于深度学习技术的普及具有重要意义。本文在现有压缩算法的基础上,对其进行优化改进并完成了以下工作:(
特征选择已经被广泛地研究和使用在机器学习和模式识别领域,因为它能够减少问题的复杂度,同时提升学习算法的预测精度。但是,传统的特征选择算法依据特征和类别变量之间的相关关系选择相关特征、去除无关特征,从而没有试图学习它们之间的因果特征。近些年,基于马尔科夫毯的特征选择已经吸引了越来越多人的关注,因为它比传统的特征选择算法具有更好的鲁棒性和可解释性。基于马尔科夫毯的特征选择旨在发现类别变量的马尔科夫毯(