论文部分内容阅读
DNA微阵列技术能同时检测成千上万个基因甚至是全基因组的表达水平,为人类在分子水平进行疾病的诊断和治疗提供了全新的技术手段。利用海量的基因表达数据,进行基因功能分类和疾病诊断,已成为生物信息领域研究的热点问题。聚类是实现基因功能划分的重要手段,其中相似性度量的选取至关重要;分类是实现疾病诊断的重要手段,针对基因表达数据的高维小样本特性,进行有效的降维和特征提取,就成为分类前的关键步骤。本论文针对基因聚类和样本分类,分别从基因相似性度量和特征提取两个方向展开研究。方向一:针对基因聚类任务中基因相似性度量的选取问题,本论文透过基因表达水平,挖掘基因相似的深层次关系。从基因个体特征和基因关系特征两个不同角度挖掘基因的相似性,分别提出基于最短路的基因相似性度量和基于网络拓扑结构的基因相似性度量。对基因表达数据进行聚类分析的实验,验证了所提方法的有效性。(1)从基因个体特征出发,提出了基于最短路的基因相似性度量。通过基因的表达相关性构建共表达基因网络,用求解网络最短路的方法获得基因个体特征的相似性,以最短路径长度作为基因的相似性度量。将该相似性度量和传统聚类方法相结合,对yeast数据进行基因聚类分析,与基于欧氏距离或皮尔森相关系数的聚类结果进行比较,结果表明,基于最短路的相似性度量能获得更好的聚类性能。(2)从基因关系特征出发,提出了基于网络拓扑结构的基因相似性度量。通过阈值化基因表达相性来获得基因关系网络,用网络局部拓扑结构来表征基因的关系特征,以关系特征的某种相似性作为基因的相似性度量。基于该相似性度量,采用传统聚类方法对yeast数据进行基因聚类分析,验证了基于网络拓扑结构的基因相似性度量的可行性。方向二:针对样本分类任务中传统特征提取方法在高维小样本基因表达数据上的应用局限性,提出一种基于样本空间的特征提取算法和一种新的鉴别特征提取方法。(1)针对传统方法在进行基因表达数据的特征提取时,存在计算复杂度高或矩阵严重奇异的问题,提出一种基于样本空间的特征提取方法。把最优变换向量用样本的线性加权和表示,通过代数变换,把特征提取过程从高维的基因空间转换到低维的样本空间,从而有效降低了特征提取的计算复杂度和矩阵的奇异程度。对基因表达数据的特征提取实验验证了方法的有效性。(2)针对fisher线性鉴别分析方法(LDA)最优子空间维数受样本类别数限制和计算协方差矩阵的复杂性问题,提出一种新的鉴别特征提取方法—类别保留投影(Class Preserving Projection,CPP)。把两两样本之间的类别关系作为权重系数,通过最小化类内两两样本的平均距离和最大化类间两两样本的平均距离,来构造目标函数,采用线性投影方法寻找最优鉴别特征。通过核技巧将CPP推广到非线性空间,提出核类别保留投影(Kernel Class Preserving Projection,KCPP),用于解决非线性鉴别特征提取问题。相比LDA,CPP最优子空间的维数不受样本类别数的限制,能找到更高维的最优子空间;且不需要计算协方差矩阵,降低了计算复杂度。对基因表达数据的线性和非线性特征提取实验分别验证了CPP和KCPP特征提取的可行性和有效性。