论文部分内容阅读
遗传异质性(genetic heterogeneity)是生物信息学研究领域中的重要研究方向之一,也是遗传学中普遍存在的现象.因此,国内外很多专家对遗传异质性进行了研究,但是传统的遗传异质性的研究局限于表型和基因型之间的概率关联,该类方法主要是利用遗传标记家系数据,基于由父代到子代的传递信息研究该类问题,由于标记位点的多态性信息传递的多基因互相作用的信息较微弱,因而限制该类方法的应用范围.由于DNA微阵列可以快速、并行、高效地检测基因表达水平,提供了一种解决遗传异质性问题的新途径,而基于基因表达谱数据进行遗传异质性问题研究较少,在这方面的深入研究具有重要理论意义和实际意义.该文首先对现有的基因表达聚类算法进行了研究,提出了双向迭代聚类算法.该算法通过对基因维和样品维反复聚类,可以动态地观察到基因和样品间的关联关系.在反复的聚类过程中,基因维的下降可以改善类的准确性,而这反过来又有助于进一步降低基因维.由于无论对于层次型聚类还是对分割型聚类,选择明显聚类的个数都是一个非常重要的问题,因此,该文对聚类算法中如何选择聚类个数进行了深入的研究,提出了基于MMSS(Minimize of Mean Split Similarity)的聚类个数选择算法,并把它应用到了双向迭代聚类算法中.基于MMSS聚类个数选择算法是一种可被广泛应用的聚类个数选择方法,能被用于不同类型的聚类算法.最后,通过实验对该文提出的双向迭代聚类算法与其他的聚类算法进行了详细的分析与比较.实验表明,双向迭代聚类算法具有更高的精确度.利用基因表达谱与亚型之间的关系,对基因表达谱数据进行聚类分析,来确认疾病类型和疾病亚型为遗传异质性的研究提供了新的思路,有助于新的诊断、治疗方法的实现和新型药物的研制.