基于分子振动特征的药物靶点识别及活性预测模型研究

来源 :北京中医药大学 | 被引量 : 3次 | 上传用户:ehuer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景:目前,多数中药化学成分作用靶点及其生物活性尚不确定,这已成为阐明中药物质基础及其作用机制的瓶颈之一。中药化学成分作用靶点及其生物活性的研究有助于揭示中药在治疗疾病过程中发挥药效的程度以及为中药化学成分在体内发挥疗效的机制提供线索与指导,也有助于中药化学成分作用靶点的重新定位。随着科学技术的进步与发展,越来越多的中药化学成分被发现。由于时间与资金成本的限制,利用传统实验的方法进行中药化学成分与相关靶点之间生物活性的测定面临很大的挑战,花费昂贵且效率较低。采用机器学习的方法构建药物与靶点的定量预测模型进行中药化学成分作用靶点的识别及活性预测弥补了传统实验的不足,具有高效低耗的特点,被认为是研究化合物作用靶点与其生物活性的有效手段。近年来,越来越多关于药物与靶点相互作用关系预测的模型被报道,这些模型大多数是判断药物与靶点之间是否存在相互作用关系,不能进行活性预测,只有少数模型用于预测药物与靶点之间的定量关系,这些定量模型预测性能较差且只是针对少量靶点,即模型的准确性和适用范围还需要进一步提高。因此建立预测性能高与适用范围广的药物与靶点相互作用关系的定量预测模型是研究中药化学成分潜在作用靶点及活性预测亟待解决的问题。目的:本文旨在构建预测性能高及适用范围广的药物靶点定量预测模型,弥补当前采用实验手段确定药物潜在作用靶点及生物活性所带来的不足之处,提高当前药物靶点定量预测模型的预测性能及适用范围,以期为阐明中药的物质基础及作用机制提供一定的线索与指导。方法:(1)药物与靶点相互作用定量关系数据库的考察。从数据的可靠性,准确性,完备性,可获得性以及适用性五个方面对已有的药物与靶点相互作用关系数据库进行考察。数据的可靠性主要是考察数据的来源,准确性主要考察数据库收录数据的标准(主要是活性值的单位)是否一致,完备性主要考察数据库对当前药物与靶点相互作用关系的覆盖程度,可获得性主要考察数据获得的难易程度,适用性主要考察数据信息是否完善。最终,基于这五个方面确定本文的最佳数据源。(2)药物与靶点定量预测模型的构建。①根据收集的药物与靶点相互作用关系数据,计算化合物的分子描述符及靶点的序列描述符,从分子振动的角度对化合物的描述符进行筛选得到化合物的特征描述符子集,最后整合为药物靶点定量关系数据集。②对数据集进行数据预处理,包括数据的清理,集成,变换,规约。数据清理是指清除异常值,数据集成是指对收集的数据进行整合,数据变换是指将数据转化成适用于建模的形式,数据规约是指对数据进行归一化处理。③特征筛选及模型构建,采用“Boruta”程序包进行特征筛选构建数据集的特征子集,分别采用随机森林,支持向量机,人工神经网络三种机器学习算法进行药物靶点定量预测模型的构建。通过交叉验证的方法对模型的稳定性及预测性能进行验证,采用构建的模型对训练集和测试集分别进行预测,计算实验测得的值(真实值)和预测值之间的差值以及差值绝对值,分析训练集和测试集在每一差值范围内的样本量分布。绘制真实值与预测值的散点图,计算决定系数(R2)和均方误差(MSE)等回归模型的评价指标筛选最优模型。(3)通过与已报道的模型进行比较,判断本文所构建模型的准确性及适用范围。(4)最优预测模型在中药化学成分作用靶点识别及活性预测中的应用。收集Binding DB数据库中未参与本文模型建立的中药化学成分与靶点之间的定量关系,依据数据考察原则对数据进行收集整理获得新的数据集,采用已获得的最优模型对新的数据集进行预测,将预测值与真实值进行比较证明最优预测模型的准确性及适用性。结果:(1)选用ChEMBL数据库中的药物靶点定量关系数据作为本文的数据源。(2)建立了6个分别由EC50和KD值量化的药物靶点相互作用定量预测模型。基于本文收集的数据集分别建立了由EC50和KD值量化的药物与靶点相互作用关系的定量预测模型,涉及2207个化合物和1254个靶点共计21999条关系。从分子振动角度筛选出813个描述符表示化合物的特征子集。①采用随机森林算法构建的模型在训练集和测试集上具有良好的预测性能,EC50值量化的模型R2均大于0.96,MSE小于0.09;KD值量化的模型R2均大于0.94,MSE小于0.12;②采用支持向量机算法构建的模型在训练集上的预测性能优于测试集,EC50值量化的模型在训练集上的R2=0.9317,MSE=0.1270,测试集R2=0.5759,MSE=0.8356;KD值量化的模型在训练集上的R2=0.9099,MSE=0.1254,测试集R2=0.5083,MSE=0.7290;③采用人工神经网络算法构建的模型在训练集的预测性能也优于测试集,EC50值量化的模型在训练集的R2=0.7350,MSE=0.4867,测试集R2=0.5211,MSE=0.9590;KD值量化的模型在训练集上的R2=0.5857,MSE=0.5612,测试集R2=0.2961,MSE=1.019。比较数据集在每一差值绝对值范围内分布的样本量及上述回归模型的评价指标,随机森林算法构建的定量预测模型预测性能最好。(3)采用相同的模型评价指标与文献已报道的模型进行比较,结果表明本文构建的最优模型具有更高的预测准确性及适用范围。(4)采用本文构建的最优预测模型对Binding DB数据库中已有的但没有参与本文模型构建的中药化学成分与靶点的定量关系进行预测,结果表明本文预测的药物靶点相互作用关系与实验测量结果一致。在活性预测方面,实验测量的预测值均大于真实值,但是它们之间的差值集中在某一范围内。出现这种系统误差的原因可能是由于数据收集的来源不同,Binding DB数据库与ChEMBL数据库中的数据收入标准有所差异。可以通过设置校正因子来消除系统误差,校正因子可以由所有差值的平均值来表示。这也在一定程度上证明了本文建立的定量预测模型在中药化学成分作用靶点及活性预测方面的适用性。结论:本文首次提出了从分子振动的角度筛选化合物的分子描述符。成功建立了药物与靶点相互作用关系的定量预测模型。通过回归模型评价指标确定了随机森林算法构建的药物靶点定量预测模型为最优预测模型即模型具有更好的预测性能,支持向量机算法构建的药物靶点定量预测模型可能存在过拟合,人工神经网络算法构建的药物靶点定量预测模型可能存在欠拟合。通过比较,本文建立的最优模型的预测性能及适用范围均优于文献已经报道的最优模型。最终,在最优模型的基础上,对Binding DB数据库中的部分中药化学成分与靶点相互作用关系进行了定量预测,结果表明本文构建的药物与靶点相互作用关系定量预测模型在中药化学成分作用靶点及活性预测中的适用性,证明了从分子振动角度确定化合物描述符的客观性。
其他文献
公私合作模式能够提高农村公共物品的供给水平和供给效率,并缓解地方政府的财政困难。政府部门和民间部门目标函数的部分一致性、我国市场经济体制的不断完善和民间资本的日
赵恒烈是我国现代著名的历史教育家,他开创了我国学科教育学的重要分支——历史教育学,并投入毕生精力从事历史教学的研究。他是新中国历史教育理论研究的泰斗,理论与实践相
本文的文化语境主要限定到中国80年代小说之中,但这不是一个绝对的界线,因为历史的复杂性和连续性使我们的研究范围不得不涉及到70年代末,90年代初的部分作品中。在这样一个
针对目前国内发表的相关中文文献对脱钩分析8种状态的英文术语汉译名称难以理解的问题,提出了一个新的脱钩分析术语译名方案,建议将expansive coupling译为“联动增长”,将re
本论文的研究内容是以国家自然科学基金研究项目“新疆地区节能住宅新型构造体系研究”(项目编号50768009)为基础,结合新疆地区在气候分区中跨越严寒地区和寒冷地区两个气候
在中学生的培养中,音乐教学具有独特的美育教育作用。随着现代流行音乐的兴起和盛行,中学音乐教育也必须配合社会大趋势,在教学中融入流行教育,促进学生全面发展。本文从中学
物质观是一切唯物主义哲学的基石,马克思作为一个实践的唯物主义者也有与其哲学革命变革相适应的新的物质观.本文从物质的先在性、属人性和社会性三个方面对马克思的物质观进
目的:分析碘造影剂推注速度对肝脏CT增强扫描强化程度的影响。方法:收集2016年6月~2018年12月在本院进行肝脏CT增强扫描的患者69例为研究对象,根据随机原则将其均分为3组,所
高职院校扩招100万人政策落实总体顺利,取得了积极成效。但与此同时,少数省份统筹力度不够、硬件保障严重不足、教师量质极度短缺、教学组织难度加大、教育公平遭遇挑战、地
在我国,校本课程改革已经发展成为课程改革的主要内容,也是今后基础教育课程改革发展的一种基本趋势。中学历史校本课程开发能够弥补中学历史国家课程设置的不足,促进历史教