基于稀疏矩阵分解的特征基因识别方法研究

被引量 : 0次 | 上传用户:ddsusu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的进步和数据库的使用,各种各样的信息呈爆炸式增长,人们很难从海量的数据中找到有用的信息。数据库技术和机器学习的迅速发展,使得数据挖掘作为一种新的数据处理技术登上历史舞台。近年来,各种生物基因组研究相继开展,使得生物学实验数据的数量呈爆炸式增长。过去的数据分析方法已经远远不能满足实际研究的需要,稀疏矩阵分解理论作为新一代的数据挖掘技术能够很好地处理大规模基因表达数据,进一步从基因表达数据中识别出包含关键信息的特征基因,从而为生命科学更好地认识生命提供了有效的手段和方法。本文通过综合分析国内外学者对稀疏矩阵分解理论和特征基因识别算法方面的研究成果,发现其中存在部分学术研究上的缺乏,因此,笔者基于以往的研究成果,通过对数据挖掘算法进行深入研究,选择其中的特征提取作为重点研究方向,对稀疏矩阵分解展开研究,并对稀疏矩阵分解算法进行改进,提出了两种新的特征基因识别算法:基于类别信息的惩罚性矩阵分解算法和基于P范数的鲁棒特征提取算法。基于类别信息的惩罚性矩阵分解根据基因表达数据中不同的样本数得到总散度矩阵,并将总散度矩阵进行矩阵分解,重建一个新的数据矩阵,然后利用惩罚性矩阵分解对新的数据矩阵进行处理,得到稀疏特征样本,最后,根据稀疏特征样本中的非零项来识别特征基因。基于P范数的鲁棒特征提取算法利用Schattenp范数作为正则化函数来得到低秩矩阵,利用pL作为误差函数来提高对离群值的鲁棒性,因此该算法可以有效地识别特征基因。为了验证这两种算法的性能,本文分别在仿真数据集和基因表达数据集上进行实验,并同现有的方法相比较。实验结果表明,笔者提出的算法是有效可行的。本论文的创新点之一在于通过总散度矩阵引入样本类别信息,并与PMD进行结合,提出一种新的有监督特征提取算法基于类别信息的惩罚性矩阵分解算法(CIPMD)来识别特征基因,并成功将CIPMD应用在基因表达数据分析中;创新点之二是基于Schattenp范数和pL范数,提出基于P范数的鲁棒特征提取算法(PRFE)来识别特征基因。
其他文献
黄宗羲实学的基本特点在于:坚持修正理学与发展实学的统一性,坚持经世致用与民主启蒙的统一性,坚持研究史学与创立实学的统一性。
随着科学技术的快速发展,人类已经进入到知识经济时代,知识资源成为社会发展的重要资源之一,高等学校作为知识收集、传播的重要载体,其知识管理的水平和质量越来越受到人们的
因地治宜采用合理的基坑降水方案非常重要,本文着重论述了基坑降水的几种方案及其适用范围。
随着我国市场经济的不断发展,我国企业的竞争也日趋激烈。在新的形势下,企业的竞争从本质上看是人才的竞争。企业竞争中最重要的因素就是人才的竞争。因此,人力资源是企业最
审计定价是会计师事务所与其客户之间联结的纽带,是双方就审计服务的价格达成的一致意见。公正合理的审计定价一方面能够保证会计师事务所的健康发展,另一方面能够保证企业披
板形不仅是热连轧产品质量的核心内容之一,也是反映轧制稳定性的一项重要标志。因此,国内外投入了大量的人力、物力对此研究,并取得了大量成果。但是如何保证在最长计划公里
随着现代移动通信设备向着小型化、高频化、集成化及低成本化方向的发展,对以微波介质陶瓷为基础的微波元器件提出了更高的要求。基于低温共烧陶瓷技术(Low temperature co-f
粗糙集理论是一种可以处理不精确、不确定、不完备和不一致数据的有效的数据分析工具。近年来,粗糙集理论凭借其独特的优势开始逐渐应用到生物信息学领域,并且在肿瘤分类特征
随着我国文化体制的改革和出版社的转企改制,我国出版市场的外部环境正在发生着深刻的变革。经济的繁荣带来了文化的繁荣,文化产品大大丰富,出版市场已经由卖方市场转化为买
中国朝鲜族是从朝鲜半岛移民而来的跨境民族,它的形成和发展都与朝鲜族的几次人口流动有紧密关系。本文主要就延边州的朝鲜族人口展开分析和研究。改革开放后,由于生产力的发