论文部分内容阅读
聚类算法是机器学习中的一个重要研究方向。当前正处于信息爆炸的时代,样本数据可以通过互联网、社交媒体、公开募集等多种方法便利地获得,然而对原始数据的打标过程却非常耗时耗力。因此,对原始数据首先进行聚类处理成为了更好的选择,同时也为后续的打标、识别、分类等等算法的性能提升奠定基础。人脸识别已经经过了多年的发展与进步,在学术界以及产业界都有了非常好的应用效果。然而当前人脸识别仍然存在一定的挑战,例如在不同的光源、阴影、表情、遮罩以及噪声污染下的样本中对人脸特征的识别、提取以及相似度估算等等。传统的聚类算法往往基于研究对象的单一信息特征,容易陷入盲人摸象、管中窥豹的局部认知之中。引入多信息特征的融合学习模型能够综合更多维度的信息,得到对研究对象的更为全面的认知,进而提升聚类算法的性能。本文主要研究目标为基于人脸的多信息特征的融合聚类模型,旨在提出一种新的跨学科的信息特征提取技术,并将新的信息特征与数据本身的多种信息特征进行融合,最终提出新的高效可行的机器学习融合聚类算法模型。根据人类的认知直觉,对于不同对象的人脸是基于其面部轮廓、皮肤纹理等信息进行区分的,这些对于区分人脸而言的高价值信息,主要存在于人脸图像中像素变化剧烈的区域。图像的无价值信息如随机噪声、无用成分以及光影、遮罩等干扰噪声在原始空间域中难以分离,而在频域中能更为方便地进行捕获及分离。基于此分析,在本文中,将图像样本从原始的二维空间域转换至频域中,并通过信号处理的相关技术对高价值的信息进行提取,同时捕获并筛除无用的干扰信息,以提取一种新的图像信息特征“高频纹理分量”(High-Frequency Texture Component,HFTC)。通过将高频纹理分量信息与数据空间流形信息进行融合,提出了一种新的融合谱聚类算法模型——高频谱聚类(High-Frequency Spectral Clustering,HFSC)。具体而言,在HFSC中首先提取所有样本点的高频纹理分量信息,根据高频纹理分量信息特征提出一种新的距离估算方式以计算样本点间的相似度,并基于此相似度,构造数据的空间流形图结构。在该图结构的基础上使用传统谱聚类,以求得最终的聚类簇标签信息。根据在真实人脸数据集上的实验可得,高频纹理分量与空间流形信息融合谱聚类算法HFSC具有易实现、高效率以及高精度的优点。为了进一步地将信息特征融合理论应用于产业落地,本文中基于HFSC算法框架的特点,设计了一种集成电路低质量图像处理应用方案。该方案可以对低质量的芯片电镜扫描图进行切分、定位、特征提取以及聚类,为后续缺陷、硬件木马检测等验证过程提供良好的数据支撑。在基于真实电镜扫描图生成的仿真数据集上进行实验,结果表明HFSC算法具有高运行效率、高准确率以及高鲁棒性等优点,拥有非常好的应用落地价值。通过将高频纹理分量信息与数据的低秩信息进行融合,提出了一种新的人脸数据混合表示——高频低秩表示(High-Frequency Low-Rank Representation,HFLRR)。该表示通过一个统一的最优化问题框架来融合原始数据的低秩信息以及数据的高频纹理分量信息特征,在迭代求解的过程中,找到融合了二者的最优数据表示。具体而言,在HFLRR中同时对数据的低秩性、数据的稀疏噪声以及数据表示与高频纹理分量矩阵的差异性进行非线性规划建模,并通过交替优化的方式进行最优值求解。将HFLRR所学习得到的混合表示应用在真实人脸数据集上进行子空间聚类,聚类实验结果表示,融合了高频纹理信息的低秩子空间表示拥有更好的运算效率与算法性能。接下来,为了进一步探究人脸图像数据在频域中的本质特征,发掘高频纹理分量信息特征的机理,提出了一种基于高频纹理分量与低秩约束融合的子空间结构恢复算法框架——频域低秩子空间恢复(Frequency domain Low-Rank Subspace Recovery,FLRSR)。由于数据在频域中能够更有效地筛除次要信息、噪声干扰并且提取高价值信息,因此认为数据的频域信号相较于原始域中拥有更好的低秩属性以及更接近真实的子空间结构。因此,分别设计实验来证明高频纹理信息优秀的低秩特征以及探索其影响因素。并最终提出了基于数据频域低秩属性的子空间结构恢复算法。在真实人脸数据集的实验中表明,基于数据频域的低秩子空间相较于原始域有更好的块对角结构以及更优秀的聚类性能。