面向深度卷积神经网络的压缩方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ZNZXCTH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现阶段,深度卷积神经网络已经在许多计算机视觉任务上显示出了强大的性能。不断堆叠的网络层数为模型提供了强大的特征处理能力,但是,这也使得深度卷积神经网络模型存在存储内存过大和计算量过多等问题,不利于其在轻量级设备上进行部署。因此,如何对深度卷积神经网络进行压缩这一问题吸引了学术界的目光。虽然对神经网络模型压缩的研究已经取得了一定进展,但是目前仍存在许多亟待解决的问题。例如,大多数剪枝(Pruning)算法经验性地选择了L-p范数作为卷积核的重要性衡量标准,忽略了同一卷积层卷积核L-p范数的分布情况,该算法默认卷积核L-p范数分布较为分散,可以选择出冗余的卷积核进行剪枝,但其实大多数深度卷积神经网络中同一卷积层卷积核L-p范数的分布较为集中,不利于冗余卷积核的识别。再如,知识蒸馏(Knowledge Distillation,KD)方面,注意力机制的加入确实提升了知识迁移的效果,但是传统的注意力图生成方式采用了所有的特征图通道,这种方式默认所有特征图通道对模型做出了均等贡献。事实上,数据显示,特征图通道间特征强度存在明显差异,这一方式生成的注意力图并不能完全发挥注意力机制的优势。本文从上述问题出发,从剪枝和知识蒸馏两方面对深度卷积神经网络压缩问题进行研究,提出相应的解决方案,具体贡献如下:(1)本文提出了特征图离散度剪枝算法,通过单个卷积核对一批输入图像生成的多个特征图通道的离散度来衡量卷积核的重要性,避免了在整体区分度不大的卷积核参数上设计重要性衡量标准。相较于在卷积核上设计重要性衡量标准的剪枝算法,特征图离散度剪枝算法能够利用卷积核生成的不同特征图通道的离散度来判断该卷积核对输入数据关键特征的提取能力,进而衡量卷积核的重要性。而且从特征图上设计卷积核重要性衡量标准可以利用特征图的分布属性,拉开卷积核重要性分布距离,更准确地定位到冗余的卷积核。并且该算法不需要引进多余的超参数,降低了人工成本,只需很小的计算量,因而可以轻易地应用到任意主流的深度卷积神经网络模型上,具有普适性。同时,为了减小剪枝操作对模型分类准确率的影响,本文采用了循环剪枝框架平缓模型结构的改变速度。图像分类数据集上的实验结果显示,特征图离散度剪枝算法在绝大多数模型上的表现优于现有的剪枝算法,在同等剪枝率的情况下模型准确率损失最小,特别是对cifar-10数据集上的Resnet110模型剪枝30%卷积核后,只有0.09%的准确率损失。(2)本文提出了增强注意力知识蒸馏算法,舍弃教师网络中特征强度较弱的特征图通道,只选择教师网络中间层具有指导意义的特征图通道生成增强注意力图来辅助学生网络进行训练,即只把教师网络中优秀的知识传递给学生网络学习,提升了知识蒸馏的效果。并且本文运用了Early Stop技术,减少后期知识蒸馏部分损失函数在整体损失函数中的权重,进一步提升增强注意力知识蒸馏算法的效果。图像分类数据集上的实验结果显示,与现有的知识蒸馏算法相比,增强注意力知识蒸馏算法结合Early Stop的训练方式可以给学生网络带来更多的性能提升。
其他文献
人工金属酶(ArMs,artificial metalloenzymes)是将金属催化剂通过主客体相互作用组装到生物分子骨架中形成的一类仿生催化剂,它具有金属催化和生物催化的双重特点,用于拓展金属催化的反应类型和发掘生物分子的催化新功能。近些年,核酸的天然空间结构引起了化学家极大的兴趣,以组装人工核酸金属酶用于手性催化研究。双螺旋DNA、G-四链体DNA、G-三链体DNA、发卡型DNA、单链DNA
在我国西部山区的桥梁建设中,双柱式桥墩的简支梁桥是较为常见的桥型,而桥墩墩顶偏位是该类型桥在施工与运营过程中常见病害之一,桥墩偏位后桥梁的实际结构状态较设计结构状态会发生偏离,导致桥梁结构的性能受到影响。本文以桥墩发生偏位的国道213线大关县三江口至玉碗段改扩建工程红岩沟大桥为依托工程,从静力特性、稳定性、抗震性能等方面对墩顶偏位下的双柱式桥墩进行结构安全评估研究。本文主要完成的内容如下:1、阐述
目前国内的传统木结构主要有两种,即抬梁式与穿斗式,在中国的北方主要以抬梁式为主,而穿斗式木结构轻巧而简洁,出现在中国的南方民间较多。然而西南地区震害频繁,穿斗木房屋破坏严重,尤其是山墙倒塌造成的二次伤害尤为严重,广泛用于乡间民居的穿斗式的木制房屋当前要及时的使用一种可对抗地震的加固方式,最大限度地消减地震带来的灾害和生命财产损失。针对上述问题,本文尝试从填充墙方向进行改良,从而提升穿斗式木结构的抗
压电陶瓷具有优良的压电、介电以及铁电性能,已被广泛应用于制动器、多层电容器、传感器和换能器等领域。为进一步满足大功率器件对其高压电性能的需求,近年来,铅基驰豫铁电陶瓷材料被大量研究,其中,钙钛矿结构的Pb(Nb,Ni)O3-Pb(Hf,Ti)O3(PNN-PHT)三元压电陶瓷具有优异的压电性能,有望成为一种高性能压电陶瓷材料。本文以PNN-PHT三元压电陶瓷材料为研究对象,通过离子掺杂以及组分调控
量子非局域性是量子力学的核心问题,并具有极其深刻的物理意义.两体量子系统中的量子导引成果已经相当丰富,在前人基础上我们将继续研究三体量子系统的量子导引问题。本文基于三体量子系统中量子导引方案的概念与已有的等价刻画,研究AB→C和强A→BC导引问题.首先,揭示了三体量子态ρABC的AB→C可导引性与其约化态ρAC的A→C可导引性及约化态ρBC的B→C可导引性之间的关系;其次,通过推导出AB→C和强A
桥梁有限元模型修正与损伤识别一直是国内外的研究热点之一。由于有限元模型的修正及损伤识别是复杂的力学反问题系统,针对结合响应面模型修正的损伤识别方法,大部分学者仅根据数值模型、缩尺结构或简支梁结构进行了验证,且仅采用静力响应或动力响应构造单目标函数进行优化求解,选取信息量较少。本文以实桥为例,结合响应面模型修正方法,联合静动力响应构造多目标函数对该桥进行损伤识别,探索能更为高效、准确、可靠地识别实桥
随着在线教育的普及,慕课以其丰富的资源和优质的课程服务等优势,吸引了全球众多的学习者。但是,由于慕课的学习环境自由且压力较小,导致辍学现象愈发突出,严重阻碍了慕课的发展。近年来,利用慕课平台学习者的行为信息对其进行辍学预测,成为了教育数据挖掘的研究热点。本文以慕课学习者行为数据为基础,从行为数据处理和提高预测精度展开研究,本文的主要工作如下:(1)针对慕课学习行为特征和时序特征提取的问题,提出一种
计算机断层扫描影像获取速度快、分辨率高等特点使得在新型冠状肺炎临床诊断中利用CT影像进行病灶检测成为一种有效的方法。尤其针对新冠肺炎传染性强的特点,尽早发现病情对于提高患者的生存率及缓解疾病的传播发挥着至关重要的作用。因此,本文以医疗图像处理技术为背景,以构建一个兼顾准确率与实时性的算法为目标,针对基于深度神经网络的新冠肺炎病变区域检测模型进行了研究。主要创新性工作如下:针对现有技术在肺炎病灶检测
谱理论是算子理论和算子代数中的一个重要分支,它与其他学科有着密切的联系,在物理学、量子力学等学科中的应用非常广泛.谱理论中的Weyl型定理问题,近年来备受关注,关于该问题以及相关问题的研究成了谱理论中的热点问题.本文利用新定义谱集与其他谱集间关系,主要研究了 Weyl定理的变形,即(ω)性质.首先通过一致可逆性质定义新的谱集,给出了算子满足(ω)性质的判定,同时讨论了算子函数的(ω)性质;其次通过
近年来,公民对于版权保护的意识明显提高,基于调幅加网的防伪技术应运而生,它是数字产权的可靠保障,其制作过程相对简单且投入成本较低,因此得到了广泛应用。但是,这项技术面临两个问题,其一,调幅加网存在大量的重复计算,增加了算法的时间成本;其二,防伪信息提取的结果不够清晰,难以进一步加以利用。本文聚焦调幅数字加网、光栅防伪技术及防伪信息提取技术,提出了单元格阈值矩阵的新概念,并利用单元格阈值矩阵实现了调