论文部分内容阅读
随着信息技术的进步和数据库的使用,各种各样的信息呈爆炸式增长,人们很难从海量的数据中找到有用的信息。数据库技术和机器学习的迅速发展,使得数据挖掘作为一种新的数据处理技术登上历史舞台。近年来,各种生物基因组研究相继开展,使得生物学实验数据的数量呈爆炸式增长。过去的数据分析方法已经远远不能满足实际研究的需要,稀疏矩阵分解理论作为新一代的数据挖掘技术能够很好地处理大规模基因表达数据,进一步从基因表达数据中识别出包含关键信息的特征基因,从而为生命科学更好地认识生命提供了有效的手段和方法。本文通过综合分析国内外学者对稀疏矩阵分解理论和特征基因识别算法方面的研究成果,发现其中存在部分学术研究上的缺乏,因此,笔者基于以往的研究成果,通过对数据挖掘算法进行深入研究,选择其中的特征提取作为重点研究方向,对稀疏矩阵分解展开研究,并对稀疏矩阵分解算法进行改进,提出了两种新的特征基因识别算法:基于类别信息的惩罚性矩阵分解算法和基于P范数的鲁棒特征提取算法。基于类别信息的惩罚性矩阵分解根据基因表达数据中不同的样本数得到总散度矩阵,并将总散度矩阵进行矩阵分解,重建一个新的数据矩阵,然后利用惩罚性矩阵分解对新的数据矩阵进行处理,得到稀疏特征样本,最后,根据稀疏特征样本中的非零项来识别特征基因。基于P范数的鲁棒特征提取算法利用Schattenp范数作为正则化函数来得到低秩矩阵,利用pL作为误差函数来提高对离群值的鲁棒性,因此该算法可以有效地识别特征基因。为了验证这两种算法的性能,本文分别在仿真数据集和基因表达数据集上进行实验,并同现有的方法相比较。实验结果表明,笔者提出的算法是有效可行的。本论文的创新点之一在于通过总散度矩阵引入样本类别信息,并与PMD进行结合,提出一种新的有监督特征提取算法基于类别信息的惩罚性矩阵分解算法(CIPMD)来识别特征基因,并成功将CIPMD应用在基因表达数据分析中;创新点之二是基于Schattenp范数和pL范数,提出基于P范数的鲁棒特征提取算法(PRFE)来识别特征基因。