论文部分内容阅读
矩阵的低秩逼近是一种大规模矩阵低秩近似表示技术,是从大规模、复杂的数据中寻求数据潜在信息的一种强有力方法。非负矩阵分解(Nonnegative Matrix Factorization, NMF))是矩阵的低秩逼近方法之一,它是指被分解的矩阵和分解结果矩阵的数值都是非负的。由于该方法符合数据的真实物理属性,数据的可解释性强,分解结果能够表示事物的局部特征,且模型符合人们对于客观世界的认识规律(整体是由局部组成的)等优点,模型和算法自提出以来得到了广泛研究和应用,已经被成功地应用到许多领域。当模型数据的指标集多于两个时,模型数据就可以表示成张量的形式,因此张量可以看成是向量和矩阵在高维空间的推广。对于张量代数理论及其应用的研究也是近来研究的一个热点。非负矩阵分解与张量分解理论与应用方面的研究虽然取得了很多成果,但仍然有一些问题需要进一步解决,如寻找好的非负矩阵分解算法,在线数据模型如何应用非负矩阵分解,非负矩阵分解在具体问题中的进一步应用等。另外,大规模的非负性约束给所有分解算法带来了求解的困难,影响了非负矩阵分解模型的应用效率,如果取消一部分非负性约束会提高算法的效率,但得到的特征子空间会如何变化?这也是一个前人没有进行研究的工作,围绕非负矩阵与张量分解及其应用的研究,本文从几个方面对于非负矩阵与张量分解进行了以下研究工作:1.给出了基于轮换极小化原则的一个非负矩阵分解二次规划模型算法。借助于内点罚函数,把子问题的求解转化为一个无约束的二次规划问题模型来求解,再把二次规划模型求解归结到一个线性方程组的求解,在求解过程中引入了一个降维策略,在一定程度上降低了问题的求解规模,并给出了算法的收敛性证明,数值试验表明算法能够提取到局部特征且得到的非负矩阵分解算法具有好的收敛性。2.研究了基于非负矩阵分解的一个局部图像识别策略和算法,利用非负矩阵分解算法提取到的残缺测试图像的局部特征进行有效识别,论文主要研究了残缺区域为已知情况下的局部图像识别问题,并给出相应的数值试验。3.对于训练集图像数据有缺失的识别问题进行了研究。本文首先对图像数据缺失模式进行了分类,划分了数据缺失模式的三种类型,给出了三种数据缺失模式下利用非负矩阵分解算法来提取局部特征的模型,分析了三种模型的特点和计算量,通过数值试验对三种模型提取局部特征能力的进行了比较比较,指出了各种模型的适用于不同实际问题时的优缺点。4.在利用特征子空间进行线人脸识别问题中,当增加或者减少训练样本时,相应地特征子空间就要发生改变,由于人脸图像数据规模较大,如果对新的训练样本重新进行特征提取则浪费已有的计算结果和计算资源。本文给出了一个处理在线人脸识别的算法,对于训练集增量和减量的情况推导了基于非负矩阵分解的在线迭代公式,数值试验表明,该算法可以节约一定的计算时间和计算量,且逼近效果与对训练集数据重新计算得到的结果相比较更好。5.在非负矩阵分解中,编码矩阵的非负性约束使得算法求解起来速度较慢,并且,在实际问题中,由于往往只需要部分分解结果(基矩阵)是非负的。如果我们对于矩阵分解实行部分非负约束,不仅可以提高算法的效率,还可以节省计算和存储资源,但这时相应的模型和算法会有什么变化,提取到的特征子空间有什么变化?还能不能表示局部特征?另外,在非负矩阵分解中,提取局部特征的能力是和模型有关系还是和算法有关系?本文从这些角度进行了一定的研究,得到了一些结论并进行了数值试验验证。6.作为向量和矩阵的推广,张量相当于一个高维的矩阵。由于张量模型可以处理指标集为多维的数据,所以在描述实际问题时相比矩阵模型其更能接近于实际问题的属性,因此能更好地描述实际问题。本文对于Web社区发现,给出了一个基于张量的模型及其相应的算法。模型考虑了权威值,中心值,文本值三个指标,同矩阵模型相比较,由于张量模型可以很好地保留模型数据的内在本质特征,得到的社区发现模型结果更准确,可以有效地防止主题漂流的现象,数值试验表明,算法是有效的。最后,针对非负矩阵和张量分解研究现状和存在的问题,提出了进一步研究的问题。