【摘 要】
:
基因组中的Motif预测算法研究结合了生物学、应用数学、计算机等学科领域,是当前生物信息学研究的一个热点。本文在研究Motif预测算法基础上,针对海量生物基因组数据库的查询搜
论文部分内容阅读
基因组中的Motif预测算法研究结合了生物学、应用数学、计算机等学科领域,是当前生物信息学研究的一个热点。本文在研究Motif预测算法基础上,针对海量生物基因组数据库的查询搜索需求,改进了贪心EM算法用于Motif的预测和分析。
Motif的预测首先将生物序列中的碱基或氨基酸转化成为字符串,在不同字符串序列中寻找最大公共子串,再通过生物学特征将这些字符串提取出来,与利用实验方法得到的海量生物信息数据库匹配。寻找最大公共子串的算法设计思想和数学模型是Motif预测的关键所在,目前常用的算法有模式驱动和序列驱动之分,本文主要是对序列驱动的代表算法EM进行改进。
本文分别对常用的预测算法进行了算法分析研究和实验比较。
首先,归纳总结常见Moitf模型和算法,应用模式生物的数据库信息进行实验验证,比较了各种算法工具对真实数据集中的预测。以Meme算法为基础,结合Gibbs采样和Weeder等算法,对实验结果进行比较。实验结果表明,Gibbs采样算法和Weeder算法分别具有预测长、短Motif效率高的特点,而Meme算法预测长度范围广,但准确度不高。
其次,以Meme的来源EM算法为基础,将贪心EM算法作为研究对象,分析算法模型和特点,进行重新划分后并应用kd-树初始化参数的思想,然后改进算法。
最后,本文对改进的贪心EM算法进行仿真。采用人工数据集、真实数据集进行测试,并用Meme和我们的算法进行对比实验,通过IC值和ROC曲线的比较对预测效果进行评估。结果证明,我们的算法较Meme有更好的预测性。
其他文献
随着信息与通信技术的发展、数字家庭理念的普及,家庭网关产品将走向一个更高、更先进、涉及面更广的层次,以满足数字家庭的不同功能和业务需求。智能化、集成化产品将成为家
媒体服务器是国际软交换联盟(ISC)和国际互联网工程专家组(IETF)使用的术语,在第三代通信伙伴计划(3GPP)中,称为媒体资源功能(MRF)。媒体服务器位于NGN中的IP核心网上,可为软
如何将已有的面向对象系统转化为面向Aspeet系统,进而提高原有系统的可复用性、可维护性以及可扩展性已成为AOP(Aspect-OrientedProgramming,面向Aspect编程)领域的热点问题。
Ad Hoc网络是国内外无线移动通信领域的研究热点,网络无需设置中心控制点,所有节点地位平等,各个节点不仅具有普通移动终端的功能,而且具有报文转发能力,通过分层的网络协议
短文本分类问题是对长度短的文本(通常文本长度小于160字符)进行自动分类,它是基于短文本应用领域必须解决的具有挑战性的基础性关键问题之一,具有重要的应用前景。
在
人脸检测是当前人工智能和模式识别研究中的一个热点,它可以将人脸信息有效地应用于视频监控、身份验证、档案管理、可视化通讯、多媒体数据库检索以及网络传输中的基于内容的
随着信息技术的迅猛发展和人类社会生活对Internet需求的日益增长,计算机与互联网科技得以不断的创新与升级,网络入侵的风险性也越来越大,网络安全已经成为全球性的问题。入
随着Web应用的快速发展,Web数据挖掘成为数据挖掘的热点之一,根据Web挖掘的目的和数据对象的不同,web数据挖掘可以分为Web内容挖掘、Web结构挖掘、Web日志挖掘。Web日志挖掘是对
短文本分类问题是基于短文本应用领域的必须解决的具有挑战性的基础性关键问题之一。由于短文本具有长度短、所描述概念信号弱的固有缺陷,短文本分类的可行途径是利用外部资