基于HMM模型和信息量的转录因子结合位点预测

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:dfcy007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物信息学的发展,全基因组序列不断被测序,对于转录的研究变得越来越重要。转录因子,作为一种重要的转录调控元件,它与DNA序列的结合位点——转录因子结合位点的识别已经成为当前的研究热点。准确的预测、识别算法有助于人们识别转录因子的目标基因,进而研究转录因子结合位点在上游调控区中的位置对转录的调控影响。构建转录调控网络,从而指导生物学研究,是一个充满挑战而有价值的研究方向。转录因子结合位点的预测是研究基因转录调控的重要环节,但常用的零阶 HMM位置特异性得分矩阵方法预测特异性偏低。  本文的主要工作如下:  第一,为了求解 p-value,本文对求解 p-value通用算法动态规划算法、LazyDistrib和TFM-PVALUE算法以及MotifRank算法等进行了研究,对各种算法进行了简单叙述并用C++对所有算法进行了实现,并通过实验数据对各种算法做了对比,以方便根据实际工程的需要来选取不同的算法。  第二,重点研究 COTRASIF算法预测转录因子结合位点,发现其求解 p-value算法速度比较慢以及预测结果假阳性偏高。本文引入了动态规划算法来求解p-value以加快预测速度,并引入了核心区域信息量以过滤预测结果降低假阳性。  第三,通过对酿酒酵母实际转录因子结合位点数据集的留一法测试,并在数据库 Ensembl中选取真核生物 Rattus norvegicus和Mus musculus的启动子区域序列段,然后应用本文的改进算法进行预测,再用所得结果与COTRASIF工具所得结果进行比较,验证了本文改进算法的有效性。  第四,本文采用了加强后缀数组描述 DNA序列,对搜索算法做了进一步的改进来提高搜索速度,与LAsearch相比,根据实验数据,p-value为10-5时,速度提高3倍多;p-value为10-15时,速度提高8倍多。
其他文献
随着云计算商业模式的飞速发展,越来越多的软件企业进入SaaS(Software as aService,软件即服务)市场,降低成本提高效益成为SaaS提供商迫切需要解决的问题。把传统软件迁移成SaaS软
数字矿山的提出象征着我国矿业已进入数字化矿产科技时代。如何顺应甚至超越世界矿产科研潮流就成为当前国内外研究领域的热点之一。数字矿山不同于经典矿业,它必须有计算机和
人脸表情识别是一个非常具有挑战性和非常有意义的课题,它不仅涉及到计算机视觉、心理学、生理学等相关学科,还涉及到模式识别和图像处理技术等。随着科技的进步,人们对计算机的
目前,互联网中存在大量的电子科技论文档案,如何管理和分析这些文档已经变得越来越重要。本文以此作为切入点,着重挖掘论文集中潜在的研究主题以及主题的动态演进规律。本文采用
信息服务是用不同的方式向用户提供所需信息,帮助用户解决问题的一项活动。随着信息技术的飞速发展,其内涵和外延也正在不断地扩展和变化。针对我国农业生产、管理、科研等各方
传统的电量抄读及结算是依靠人工定期到现场抄取数据,存在效率低、成本高、无法监控等问题,在实时性、准确性和应用性等方面也存在诸多不足之处,已经无法满足现代化城市的需要。
随着信息化进程的不断推进,大部分企业已经把数据仓库作为企业数据集成的主流技术,为企业提供综合的真实的数据视图。而数据的抽取、转换、加载(Extraction、Transformation、Lo
近年来,无线网络的发展非常的迅速,但与其相关的网络安全问题也随之而来。其最主要的安全问题的是无线网络中的恶意节点问题。恶意节点是多种有害无线网络安全行为的一种统称,其
People use Web search engines to look for information on the Web However,current Web search engines do not fully satisfy the needs of different individuals havin
随着互联网技术的飞速发展,诞生了很多的Web数据库,并形成一个巨大的信息资源库,为人们提供了海量信息。按照Web中所蕴含信息结构“深度”的不同,可以将Web分为Surface Web和Deep