论文部分内容阅读
疾病是机体在一定病因作用下自稳调节絮乱而发生的异常生命活动过程。从分子生物学角度来看,疾病通常是由于蛋白质质和量的改变导致的细胞功能絮乱,最终引起的人体某个或某些器官的异常工作。在分子生物学中,与疾病相关的生物表征、关联性问题等研究在疾病分析、诊断和疾病治疗等方面都发挥了重要作用。基于分子生物学实验的方法能够得到较为准确且置信度高的实验结果,但实验成本高、效率较低且无法验证所有可能的样本。而基于计算机辅助算法的研究方式成本低、效率高且能够就未知信息进行预测性分析,从而大大弥补了分子生物学实验的不足,且能够对分子生物学实验方法提供一定指导作用。因此,本文主要对与人类相关的疾病问题展开基于计算机辅助算法的预测性研究。已知与人类疾病相关的问题众多,本文选择了关注度较高的三类问题深入开展预测研究,包括:核糖体停靠位点预测问题、人类与病毒间蛋白质-蛋白质相互作用(Human-Virus protein protein interaction,HVPPI)预测问题和长链非编码RNA(Long non-codingRNA,lncRNA)与疾病的相关性预测问题。考虑到以卷积神经网络(Convolutional Neural Networks,CNNs)为代表的深度方法能够自动提取特征、且能对输入特征进行平移不变分类等特性,本文主要采用CNNs方法深入开展上述三类预测问题研究。本文主要工作如下:(1)在核糖体停靠位点的预测问题中,本文提出了一种新的基于多特征卷积神经网络的核糖体停靠位点预测方法——Deep Rib St。首先,针对已有方法特征选择过于单一,忽视有效生物学先验知识对深度学习中特征提取性能影响的问题,本文从生物学角度出发,人工提取了与核糖体停靠事件发生密切相关的三类新特征——序列保守性特征、疏水性特征及氨基解离常数特征,并使用新的多特征融合方式对新特征和常用特征进行融合;其次,针对已有基于深度学习的方法网络模型过于简单,难以处理多特征融合带来的噪声,且难以挖掘不同特征描述之间存在的内在关联的问题,本文增加了网络的通道数,在通道上对不同特征进行融合,并增加了网络的深度,从而构造了一个新的基于CNN的网络模型;最后,在人类与酵母的五个数据集上,将本文方法与不同深度学习模型及已有最新预测方法进行对比实验。实验结果验证了本文提出的Deep Rib St方法的优越性能,它在多项评价指标上均为最优结果,是一种有效的核糖体停靠位点预测方法。(2)在HVPPI的预测问题中,本文提出了一种新的基于蛋白质唯一表示(Unified representation of the protein,Uni Rep)与卷积神经网络的HVPPI预测方法——Uni C-Net。首先,针对已有方法使用的实验数据集不够全面、未考虑序列同源性对实验结果带来的偏向性等问题,综合考虑了七个权威数据库中所有的HVPPI实验数据集,并使用blastp算法对数据进行去同源化处理,以构建非冗余且非同源的实验数据集;其次,针对已有方法未考虑蛋白质序列结构特征对HVPPI的影响的问题,使用Uni Rep方法提取新的基于蛋白质结构信息的生物学特征描述,并与已有特征描述进行多特征融合,以构造更完备的特征矩阵;第三,针对已有方法网络模型简单,难以针对不同类别的特征描述进行有效多特征融合、且难以挖掘不同特征矩阵之间的隐层关系等问题,设计了新的基于CNN的模型对不同特征进行分类融合;最后,针对单个模型预测性能稳定性不够、预测结果受初始化信息及数据分布影响较大的问题,对网络进行集成,分别独立训练10个网络模型。独立测试集下与不同深度学习模型及最新方法的对比实验结果验证了新方法的优越性。(3)在lncRNA与疾病相关性的预测问题中,本文从传统机器学习和深度学习两类方法出发分别提出了两种高效预测算法,称之为LDNFSGB和MCA-Net算法。在LDNFSGB算法中,首先,针对已有传统机器学习方法对生物学特征选择不够全面、未考虑全部常用相似性特征对算法预测性能影响的问题,设计提取了lncRNA的全局功能相似性特征矩阵,并通过多特征融合构建了一个全面的特征向量;其次,针对新特征向量的特征维度较高、且未区分不同特征对算法性能贡献大小的问题,使用自编码器对特征进行降维处理,得到一组具有代表性的特征向量;最后,针对已有方法使用的分类器未充分考虑数据分布特征的问题,采用梯度增强算法(Gradient boosting)作为分类器进行lncRNA-疾病相关性预测。在多个数据集下使用三种验证方式进行对比实验及案例分析实验,其结果均验证了新方法的有效性。在MCA-Net算法中,首先,针对已有深度学习方法对生物学特征选择不够全面,且未考虑不同特征对算法性能的贡献程度不同等问题,全面考虑已有的六种相似性特征,并通过不同权值强调不同相似度特征的重要性;针对已有深度网络模型简单,未考虑每层卷积网络中不同通道提取特征的重要性等问题,设计了新的基于CNN的注意力机制模块;最后,针对新的特征编码方式和注意力机制模块的特点,设计合适本文特征向量的新的基于多特征编码和注意力卷积神经网络的预测模型。在三个公开数据集上进行对比实验及案例分析实验,其结果均验证了新方法的优越性。