论文部分内容阅读
随着生物信息学的发展,全基因组序列不断被测序,对于转录的研究变得越来越重要。转录因子,作为一种重要的转录调控元件,它与DNA序列的结合位点——转录因子结合位点的识别已经成为当前的研究热点。准确的预测、识别算法有助于人们识别转录因子的目标基因,进而研究转录因子结合位点在上游调控区中的位置对转录的调控影响。构建转录调控网络,从而指导生物学研究,是一个充满挑战而有价值的研究方向。转录因子结合位点的预测是研究基因转录调控的重要环节,但常用的零阶 HMM位置特异性得分矩阵方法预测特异性偏低。 本文的主要工作如下: 第一,为了求解 p-value,本文对求解 p-value通用算法动态规划算法、LazyDistrib和TFM-PVALUE算法以及MotifRank算法等进行了研究,对各种算法进行了简单叙述并用C++对所有算法进行了实现,并通过实验数据对各种算法做了对比,以方便根据实际工程的需要来选取不同的算法。 第二,重点研究 COTRASIF算法预测转录因子结合位点,发现其求解 p-value算法速度比较慢以及预测结果假阳性偏高。本文引入了动态规划算法来求解p-value以加快预测速度,并引入了核心区域信息量以过滤预测结果降低假阳性。 第三,通过对酿酒酵母实际转录因子结合位点数据集的留一法测试,并在数据库 Ensembl中选取真核生物 Rattus norvegicus和Mus musculus的启动子区域序列段,然后应用本文的改进算法进行预测,再用所得结果与COTRASIF工具所得结果进行比较,验证了本文改进算法的有效性。 第四,本文采用了加强后缀数组描述 DNA序列,对搜索算法做了进一步的改进来提高搜索速度,与LAsearch相比,根据实验数据,p-value为10-5时,速度提高3倍多;p-value为10-15时,速度提高8倍多。