论文部分内容阅读
流感是一种反复出现的传染病,在全球引起了高发病率和高死亡率.流感病毒分为三类:甲型(A型),乙型(B型),丙型(C型).在这三种类型中甲型流感病毒是最致命的流感病毒,给人类带来了严重的疾病.2009年流感病毒大流行再次爆发,以及20世纪人类经历了好几次流感病毒的爆发,都表明我们对流感病毒的认识还不全面,它们的很多特性还有待于我们进一步挖掘.流感病毒给人类健康带来很大威胁,因此对流感病毒的DNA序列和蛋白质序列的进一步研究是一项迫在眉睫的工作,它们的特征分析对流感病毒的预防、新疫苗的研制、药物分子设计、控制及治疗都具有重要意义.在介绍了生物信息学的研究背景后,本文介绍了研究生物序列特性的主要方法即时间序列理论方法.该方法主要是通过处理动态数据,进行分析、预测和控制.对本文要用到的ARIMA(p,d,q)模型和ARFIMA(p,d,q)模型的定义、性质及方法作了阐述,为研究流感病毒DNA序列和蛋白质序列特性作了理论上的准备工作.基于CGR坐标将流感病毒DNA序列转换成CGR弧度序列,并引入长记忆模型ARFIMA模型来分析.发现从甲型流感病毒DNA序列中随机找来的10条H1N1序列和10条H3N2序列都具有长相关性且拟合很好,并且还发现这两种序列可以尝试用不同的ARFIMA模型去识别,其中H1N1可用ARFIMA(0,d,5)模型去识别, H3N2可用ARFIMA(1,d,1)模型去识别.接着,对乙型、丙型流感病毒DNA序列进行了分析研究,发现随机找来的10条乙型序列和10条丙型序列同样具有长相关性且拟合很好,还发现这两种序列也可尝试用不同的ARFIMA模型去识别.作为一个具有完善算法的经典时间序列模型,ARFIMA模型能帮助我们挖掘流感病毒DNA序列中未知的特性.采用ARIMA模型预测甲型流感病毒中H1N1亚型DNA序列碱基,这对H1N1病毒研究有着重要的意义.我们选取1970年-2010年同源性相对较高的41条HINI流感病毒数据,利用ARIMA(p,d,q)模型对前20个位置去拟合并且预测,除极个别外由预报区域显示原始数据都在预报区域内,表明模型建立合理,预报效果很好.基于此,用同样的方法对甲型流感病毒H1N1亚型血凝素氨基酸序列进行了研究分析,同样发现预报效果很好.