论文部分内容阅读
RNA分析是现代分析科学中一个非常重要的课题,是诠释RNA功能、探究疾病分子机制的基础。传统实验方法测定RNA结构的成本高,且无法对RNA生物过程中各个时刻的分子状态进行观察并记录,所以不能获取到足够的RNA二级结构信息。随着交叉学科的发展,计算机技术越来越多的应用到化学、生物等领域,以解决传统化学生物实验方法难以解决甚至无法解决的难题。计算化学通过计算机模拟分子的性质,例如振动频率、反应活性、能量、单极距、偶极距等,用以帮助研究人员获得更多的化学信息,从而克服传统实验的缺点。计算化学采用分子力场方法对RNA二级结构进行计算研究,虽然不如量子力学方法精准,但分子力场方法计算速度快且成本低。在RNA的稳定结构中起重要作用的是分子内的非键相互作用能,包括原子间静电作用能和范德华力,其中原子间静电作用能更是起着主要作用。通过原子多极距计算原子间静电相互作用能来改进分子力场,提高分子力场计算结果精确度,使得分子力场在模拟RNA的过程中能获得更可靠的结构预测。因传统方法计算原子多极距非常耗时,本文将机器学习方法引入到RNA分子中原子多极距的预测研究中。本文主要工作是通过机器学习方法预测RNA中五碳糖分子的原子多极距。首先获取5000个五碳糖分子:我们在PDB数据库中随机下载300个RNA分子,切割出五碳糖分子小片段并进行饱和。然后计算出饱和五碳糖分子中目标原子的原子多极距,剔除计算失败的五碳糖分子,再用原子局部坐标体系(ALF)建立目标原子的输入特征,构建实验数据集。其次本文第三章主要针对各向异性核的高斯过程回归模型(ARDGPR)展开一系列研究,与各向同性核的高斯过程回归模型(GPR)、广义回归神经网络(GRNN)、径向基神经网络(RBFNN)和Bagging算法等四个预测模型的结果进行对比分析。ARDGPR的各向异性核是通过在GPR的核函数中加入自动相关性确定框架(ARD)得到的。实验结果表明ARDGPR模型预测精度最高,Bagging模型次之,而RBFNN和GRNN预测精度最低。同时对比ARDGPR模型和GPR模型的预测结果,表明ARDGPR模型能更好的描述数据特征与预测目标之间的关系,验证了用ALF坐标体系构建目标原子输入特征时已很好地将方向特性嵌入到数据中。虽然ARDGPR模型计算精度远高于GPR模型,但是其计算时间也远高于GPR模型,通过分析ARDGPR模型的预测结果,找出使得ARDGPR模型计算时间增加的原因。在第四章中结合五碳糖分子中目标原子的化学环境,从数据特征维度的角度出发,针对目标原子为非H原子的数据集,将数据集特征从75维降至30维。实验结果表明ARDGPR模型表现稳定,性能优异,预测精度进一步提高。改进实验数据集特征,提高了ARDGPR模型的预测精度,并大大降低ARDGPR模型的计算时间,证明了改进思路的有效性,同时也表明加入自动相关性确定框架构成各向异性核的ARDGPR模型更适合原子多极距的预测研究。