基因序列数据的启动子识别系统研究

被引量 : 0次 | 上传用户:akaiss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类基因组计划的顺利实施和成功完成,产生了大量的基因组信息。分析这些信息是人类基因组研究必不可少的重要工作。真核生物基因启动子的识别是基因组研究中的一个热点和难点。启动子是启动基因转录的一类重要序列调控元件。对启动子进行识别已成为基因结构识别中的重要一环,同时也是构建基因转录调控网络的核心问题。尽管目前提出了许多启动子识别的方法,但是识别中假阳性普遍都非常高。为了改善真核生物启动子识别领域存在的高假阳性的状况,本文首先搜集并学习了相关生物学知识和生物数据库信息;然后,基于主成分分析算法,提出了一种真核启动子识别系统。提取基因序列的内容特征,并使用主成分分析算法将高维内容特征进行压缩,形成主成分特征。将主成分特征与CpG岛特征进行综合并一同作为识别特征。通过提取人类启动子核苷酸联体信息生成内容特征矩阵,这样就产生了高维的统计特征。为使特征由高维降至低维,使用主成分分析算法将高维统计特征进行特征压缩。主成分分析算法是进行多变量分析的一种有效的方法,其主要思想是将原变量矩阵投影到新的空间,获得一组新的变量。通过对原变量的空间变换,只有能够代表原空间绝大部分变量的主要成分被保留下来形成新的空间,从而达到降维的目的。为了弥补在特征压缩过程中缺失了一部分特征信息,提取基因序列的CpG岛信息作为补充特征,将这2维CpG岛特征与10维主成分特征进行特征综合,共同作为BP神经网络的输入来识别启动子。将训练好的神经网络分类器对人类基因序列——L44140、D87675、AF017257、AF146793、AC002368和AC002397的启动子进行测试。最终的敏感性和特异性分别为64.70%和44.00%。为了评价系统的识别能力,我们将识别结果与PromoterInspector和DPF的结果进行比较。对人类基因序列启动子的预测结果表明,不但有效地减小了假阳性,而且具有较高的敏感性和特异性。
其他文献
目的:探讨血清胱抑素C、血清肌酐和尿β2-微球蛋白检测对高尿酸血症肾损害早期诊断的临床价值,为高尿酸血症肾损害的早期诊断提供有效的科学依据。方法:选择70例高尿酸血症患
利用2015年遥感数据,开展了湖南省矿山占地情况遥感监测,获取了矿山占地基础数据。通过分析矿山占地地物类型、矿种、开采方式等特征,总结了全省矿山占地特点,指出了矿山占地
人们高度欣赏中国传统园林所营造的曲径通幽、意境深远的环境,而这个欣赏的过程是一个全方位的感官体验,需要调动人的眼、耳、鼻、舌、体来全面感受。本文以“身体感官经验”
一、中国可再生能源的基本内涵在中国的政府文件、专家学者以及研究人员的文章中可以看到很多有关能源的名称,比如,化石能源、新能源、可再生能源,还有我们国家“十三五”规划里
随着能源危机的不断地扩大,人类迫切地需要新能源解决危机。太阳能技术是可再生、产能、无污染资源,在国内外得到广泛的应用。本文简要阐述了太阳能光伏建筑系统设计内容,主
随着经济全球化、网络化以及金融自由化浪潮的展开,银行不仅面临着同行业之间的竞争,而且也面临着同外国大金融机构之间的激烈竞争。要在竞争中保持优势,我国金融业就必须迅
大力吸引外商直接投资是潍坊近几年,尤其是2003年以来对外经济贸易工作的重点,随着招商引资力度的加大,潍坊市外资利用规模也进一步增大,外商直接投资为潍坊经济增长带来了资
随着有效的联合抗反转录病毒疗法(combination antiretroviral therapy,cART)的普及,人类免疫缺陷病毒(human immunodeficiency virus,HIV)感染者的生存期逐步延长。这一过程
本文从园林建设角度着眼,加强园林施工建设,使施工与养护相结合,共同推进当前人居环境的园林绿化工程。