论文部分内容阅读
随着科学技术的飞速发展,基因测序的成本不断减少,目前已有成千上万物种的基因组被成功测序。由于一个生物体的生物学功能密码往往隐藏在它的基因组序列中,并且在这些密切相关的基因组序列中相对保守,所以人们设计了大量的基于比较基因组学的算法来解读这些已被测序的基因组中生物学功能的奥秘。 转录调控是基因表达的关键步骤之一,该过程主要是由转录因子控制的。每个转录因子的结合位点通常都具有一定的共性或特定的模式,我们把能够由同一转录因子识别的相似的一组转录因子结合位点称为一个模体。通常,我们通过模体发现得到一些假定的模体后,需要对这些假定的模体进行聚类,使得能够被同一转录因子识别的模体形成一聚类,而不同的聚类则分别对应了不同的转录因子所识别的模体。因此,设计一种新的模体聚类算法,用来将能够被同一转录因子识别的模体进行聚类是十分必要的。 首先,本文提出了一种全新的模体聚类算法——Clip算法,并且对其串行程序进行了并行化设计,大大提高了运算速度。然后,将CliP算法和另外两种著名的聚类算法进行了对比,数据显示CliP算法的聚类效果比其他两种算法更好。最后,利用该算法对短柄草核心启动子进行预测分析,取得了理想的结果。