基因表达数据的相似性度量和特征提取研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:hzm_jjc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA微阵列技术能同时检测成千上万个基因甚至是全基因组的表达水平,为人类在分子水平进行疾病的诊断和治疗提供了全新的技术手段。利用海量的基因表达数据,进行基因功能分类和疾病诊断,已成为生物信息领域研究的热点问题。聚类是实现基因功能划分的重要手段,其中相似性度量的选取至关重要;分类是实现疾病诊断的重要手段,针对基因表达数据的高维小样本特性,进行有效的降维和特征提取,就成为分类前的关键步骤。本论文针对基因聚类和样本分类,分别从基因相似性度量和特征提取两个方向展开研究。方向一:针对基因聚类任务中基因相似性度量的选取问题,本论文透过基因表达水平,挖掘基因相似的深层次关系。从基因个体特征和基因关系特征两个不同角度挖掘基因的相似性,分别提出基于最短路的基因相似性度量和基于网络拓扑结构的基因相似性度量。对基因表达数据进行聚类分析的实验,验证了所提方法的有效性。(1)从基因个体特征出发,提出了基于最短路的基因相似性度量。通过基因的表达相关性构建共表达基因网络,用求解网络最短路的方法获得基因个体特征的相似性,以最短路径长度作为基因的相似性度量。将该相似性度量和传统聚类方法相结合,对yeast数据进行基因聚类分析,与基于欧氏距离或皮尔森相关系数的聚类结果进行比较,结果表明,基于最短路的相似性度量能获得更好的聚类性能。(2)从基因关系特征出发,提出了基于网络拓扑结构的基因相似性度量。通过阈值化基因表达相性来获得基因关系网络,用网络局部拓扑结构来表征基因的关系特征,以关系特征的某种相似性作为基因的相似性度量。基于该相似性度量,采用传统聚类方法对yeast数据进行基因聚类分析,验证了基于网络拓扑结构的基因相似性度量的可行性。方向二:针对样本分类任务中传统特征提取方法在高维小样本基因表达数据上的应用局限性,提出一种基于样本空间的特征提取算法和一种新的鉴别特征提取方法。(1)针对传统方法在进行基因表达数据的特征提取时,存在计算复杂度高或矩阵严重奇异的问题,提出一种基于样本空间的特征提取方法。把最优变换向量用样本的线性加权和表示,通过代数变换,把特征提取过程从高维的基因空间转换到低维的样本空间,从而有效降低了特征提取的计算复杂度和矩阵的奇异程度。对基因表达数据的特征提取实验验证了方法的有效性。(2)针对fisher线性鉴别分析方法(LDA)最优子空间维数受样本类别数限制和计算协方差矩阵的复杂性问题,提出一种新的鉴别特征提取方法—类别保留投影(Class Preserving Projection,CPP)。把两两样本之间的类别关系作为权重系数,通过最小化类内两两样本的平均距离和最大化类间两两样本的平均距离,来构造目标函数,采用线性投影方法寻找最优鉴别特征。通过核技巧将CPP推广到非线性空间,提出核类别保留投影(Kernel Class Preserving Projection,KCPP),用于解决非线性鉴别特征提取问题。相比LDA,CPP最优子空间的维数不受样本类别数的限制,能找到更高维的最优子空间;且不需要计算协方差矩阵,降低了计算复杂度。对基因表达数据的线性和非线性特征提取实验分别验证了CPP和KCPP特征提取的可行性和有效性。
其他文献
我国有着璀璨而辉煌的历史,文物是历史和文明的见证,而博物馆正是集中展示文物的场所,对于历史文化的继承和发展有重要作用。这些年来,我国的博物馆建设工作有了较大的起色,
目的:总结超声引导介入治疗卵巢囊肿的临床经验。方法:回顾分析在超声引导下穿刺治疗的卵巢囊肿30例,抽出囊肿内液后注入无水乙醇,观察临床疗效。结果:1个月后复查囊肿消失27例,囊
在中国市场,邢文宁正带领百年传媒巨头赫斯特穿越技术和商业周期。9月金秋,邢文宁现身纽交所,庆贺“英语流利说”上市。2014年,这位赫斯特中国首席代表兼董事总经理,力主在华
在桥梁的建设过程中,往往存在一定的质量安全隐患。不仅无法保障行人的安全,也为日后的维修工作增添了困难。因此,要加强对桥梁施工技术的改进措施,避免质量问题的出现。本文主要
随着市场竞争的日益激烈,建筑施工企业面临的形式也越来越严峻。因此,降低企业运营成本是竞争的根本。本文以传统的成本控制法及其存在的问题为研究基础,对过程管理的评价方法进
2017年,王亚民决定从上海搬回杭州。孩子的出生促成了他的决定。此前,他与妻子在上海工作,妻子怀孕后,家庭负担日渐加重,压力大、焦虑感强,他与妻子反复协商后,选择回到老家