论文部分内容阅读
DNA微阵列技术推动生物信息学跨入了多基因、全基因组研究的崭新时代,同时也产生了远远超出传统数据分析方法处理能力的海量基因表达数据。设计符合表达数据特性的高效数据分析方法已成为生物信息学研究的热点和重点。人类疾病通常与基因相关。诊断基因是指与某一特定疾病表型紧密相关的基因,具有很强的区分不同样本表型的能力。本文对基于微阵列数据的诊断基因模式发现技术进行了深入的研究。第一,提出了一种考虑离群点的无监督表型和诊断基因发现算法UPID。该算法采用启发式搜索方法,通过划分表型“块”以及衡量划分子矩阵内部的相似性与子矩阵之间的差异性,同时发现微阵列数据的样本表型划分和区分样本表型的诊断基因。LPID算法克服了基本启发式搜索算法的弱点。该算法充分考虑了微阵列数据中大量存在的噪声数据,通过在每个表型内样本比例的函数以及模式质量函数之间进行调和,从而降低离群点对表型划分的影响。同时,在启发式搜索的迭代过程中,采用增量迭代的策略,大大减少了每次迭代过程的计算量,增加了算法的运行效率。实验结果证实,本文提出UPID算法在运行效率和有效性方面与之比较的算法均有较大改善,而且发现的诊断基因具有很强的生物学意义。第二,提出了基于兴趣非冗余对比序列规则的诊断基因模式发现算法NRMINER。首先,该算法针对基于单个基因和基因组合区分样本表型的局限性,提出了等价维组序列集合模型,从序列的角度建模微阵列数据。该模型充分考虑真实世界中广泛存在的基因间相互关系,以及大量存在于真实数据集的“噪声”数据。然后,设计了一种新的非冗余对比序列规则,该规则能够捕捉到不同样本表型间的差异,用尽可能短的基因序列来提供尽可能高的诊断准确率。进一步,给出了NRMINER算法来发现这种规则。与传统的列枚举和行枚举方法不同,NRMINER算法利用微阵列数据的特点,采用全新的模板驱动枚举方法,大大降低了搜索空间。最后,大量的实验表明,本算法在运行效率上大大优于相比较的算法,而且使用更少的基因提供了更高的分类准确率。同时,该算法发现的诊断基因具有很强的生物学意义。