【摘 要】
:
数智化的时代背景下,数据驱动建模的研究与应用如日方升。但由于数据采集成本高、数据重复、波动小等原因,使得具有代表性的、可用于研究与应用的样本不足问题时有发生。并且,训练数据不足、数据质量差常使数据驱动模型的泛化、预测能力不足。因此,样本不足成为了数据驱动建模中迫待解决的问题。虚拟样本生成方法是解决样本不足问题的有效手段,有着极为重要的研究意义与实用价值。本文提出了一种基于CGAN的逆向虚拟样本生成
【基金项目】
:
国家自然科学基金面上项目《不平衡小样本数据下复杂石化工业危化品灾害风险演化预测方法研究》(No.61973022);
论文部分内容阅读
数智化的时代背景下,数据驱动建模的研究与应用如日方升。但由于数据采集成本高、数据重复、波动小等原因,使得具有代表性的、可用于研究与应用的样本不足问题时有发生。并且,训练数据不足、数据质量差常使数据驱动模型的泛化、预测能力不足。因此,样本不足成为了数据驱动建模中迫待解决的问题。虚拟样本生成方法是解决样本不足问题的有效手段,有着极为重要的研究意义与实用价值。本文提出了一种基于CGAN的逆向虚拟样本生成技术。传统的虚拟样本生成方法存在产生的虚拟样本均匀性差、覆盖程度不佳、分布性难以保证的问题。对此,本文首先集成LOF和K-Means++算法生成较为均匀的新样本,再通过CGAN合成与新样本对应的虚拟输入。接着,本文采用两个基准函数验证所提方法的有效性,通过KL、JS散度和可视化近似密度分布来评估虚拟样本与真实样本的接近程度。最后将该方法应用于实际工业数据集,实验结果表明:该方法提升了数据集的数量与质量,增强了数据驱动软测量模型的性能。为了进一步提升样本生成质量,本文基于CGAN可以产生经典回归或逆向回归预测的特点,提出基于CGAN的正向虚拟样本生成方法。首先,采用LOF算法识别数据离群点,再对离群点各维度投影,在每维的离群点投影值间进行迭代中间插值生成更为均匀的新样本。然后,通过CGAN的隐式模型生成输出子样,取每组子样的中值作为新样本对应的输出。最后,使用标准函数验证了该方法的有效性,并将其应用于实际工业数据集。实验结果表明:模型的预测精度获得了明显提升,且该方法优于其他几种先进的虚拟样本生成方法。
其他文献
细粒度人脸认证的目标在于区分给定的极为相似的面部样本对是否属于同一对象,这使其非常具有挑战性。为此,本文采用度量学习技术研究细粒度人脸认证问题,并提出了三种度量学习方法来提高认证性能。针对如何有效区分相似面部样本的问题,提出了一种环形余弦相似度学习方法,其通过寻求一种线性变换,以尽可能扩大类内的余弦相似度,减少类间的余弦相似度,同时利用环正则化项自适应地将样本的范数学习到缩放圆。此外由于传统的度量
一张好看的证件照对于广大学生以及求职工作者来说总是一个加分项。往常人们需要费时费力的去照相馆拍一张证件照,照相馆产生一张标准证件照需要六个步骤:选择证件照尺寸、选择背景色、选择穿衣服装、相机拍照、美颜修图、输出证件照。在以上六个步骤中,通过相机拍摄得到一张肖像照是前提,其余的操作则需要通过专业修图软件达到。若用户需要不同尺寸、不同背景色、不同穿着和不同美感的证件照,则非常考验专业人员的修图能力。这
多目标跟踪(MOT)在自动驾驶及高级辅助驾驶中,主要负责检测和跟踪汽车行驶过程中可能出现的障碍目标。目前主流的方法为基于可见光传感器的多目标跟踪,但是该方法在灯光照明不足和恶劣天气的情况下具有不稳定性,即有较大概率无法检测与跟踪障碍目标,然而热成像传感器采集的红外图像具有对照明、天气等因素不敏感的特点。因此将热成像传感器与可见光传感器进行信息融合,使得融合图像中包含红外图像的温度信息与可见光图像的
随着计算机视觉的发展,图像分类技术的应用越来越广泛。传统的图像分类技术通常需要大量带标签的训练数据,而在现实生活中,收集有标签的样本存在许多困难。另外,面对未来新出现的类别,人类难以为其收集带标签样本。为了解决这些问题,零样本学习得到了广泛的研究。零样本学习旨在通过已知类训练模型,解决未知类的分类问题。但训练过程中只有已知类样本,因而存在数据不均衡的问题。近年来,许多方法采用生成对抗网络(GAN)
肝脏相关的疾病极大地威胁了我国人民的生命健康安全,尤其是肝硬化和肝癌等重病。而肝纤维化是这些重病以及其它一些肝脏慢性疾病的早期表现,因此对于病人肝纤维化程度的准确评估在临床上具有重大意义。目前,肝穿刺活体组织检查术是肝纤维化诊断的主要手段,而这种有创的穿刺活检手术可能会引起并发症甚至导致病人死亡。因此,发展基于影像学的肝纤维化无创诊断方法具有重大意义。当前计算机辅助肝纤维化诊断主要集中在对肝纤维化
小麦作为人们日常生活中息息相关的农作物,其生产、加工、运输等环节的食品安全问题是直接关系到消费者的头等大事。小麦籽粒在生长及收获储存加工等过程中可能受各种产毒真菌的污染,真菌毒素的污染是影响小麦农作物质量安全的重要因素。以食品监管部门对小麦中多种真菌毒素的大量抽检数据为对象,本文应用数据挖掘方法研究了小麦质量安全预警模型。主要完成的工作有:1、给出了一种基于机器学习的小麦真菌毒素预警方法。该方法主
SHA256(Secure Hash Algorithm 256)作为目前最可靠的杂凑算法之一,在信息安全等领域具有重要的应用价值。在区块链技术中,默克尔树的构造、区块之间的链接和共识机制的运作,都以SHA256算法作为保障其系统安全性的基础支撑。目前已有研究基于HOL4交互式定理证明器验证区块链共识机制的数据一致性,该过程将SHA256算法假设为理想化模型,这导致了研究结果不可靠。为了提高验证结
教研是基础教育阶段教师专业发展的有效方式。本文基于北京市海淀区青龙桥学区英语教师教研实践,阐述了CFG模式引入区域教研的实践策略与思考,以期为教师专业发展寻找新路径。
乙烯是化学领域生产的重要原料之一,可以用来合成纤维、橡胶、塑料等基础化工原料。乙烯裂解炉是乙烯生产装置的主要设备,主要是将天然气、炼厂气、原油和石脑油等原料转化为裂解气,最终加工成乙烯、丙烯和各种副产品,其结构包括双辐射室、单辐射室和毫秒炉。乙烯裂解炉的生产能力和技术决定着整个乙烯装置的生产规模、产量和产品品质,乙烯裂解炉装置的操作优化具有重要意义。鉴于乙烯裂解炉过程的复杂性,本文从分析过程的内部
随着信息时代的发展,各类信息呈指数型增长,数字化学术出版物的数量也愈发庞大。面对海量文献,科研人员在撰写论文选择参考文献时往往面临着信息过载问题。引文推荐方法的出现与发展成为了解决这类现象的有效方法之一,但传统的引文推荐方法大多是仅考虑论文文本内容的基于内容的推荐方法,存在挖掘论文信息不够全面,属性利用单一的问题。知识图谱作为蕴含大量语义与结构信息的图网络结构,可以有效补充各类信息,近年来受到大量