论文部分内容阅读
毒性是导致候选药物开发失败的主要原因之一,为了有效提高药物开发的效率和成功率,需要在药物研发的早期阶段对化合物的毒性进行评价并将毒性较强的化合物尽早排除。毒性的实验评价成本高、周期长、工作强度大,因此发展高效可靠的毒性理论预测和虚拟高通量筛选模型具有重要的意义。在本论文中,我们采用多种机器学习算法,构建了针对急性毒性、呼吸道毒性和泌尿系统毒性的理论预测模型,并探讨了不同机器学习算法的性能和适用情况。主要研究内容及结论如下:(1).基于包含7385个化合物的大鼠经口急性毒性的大型数据集,采用相关向量机、支持向量机、k-最近邻回归、随机森林、局部近似高斯过程、多层感知器集成和极限梯度提升算法等技术构建一系列回归预测模型。采用了卡方统计量对分子描述符和分子指纹(PubchemFP或SubFP)进行了混合数据降维。在所有预测模型中,基于拉普拉斯核函数的相关向量机模型对测试集具有最优的预测能力(qe2xt=0.669~0.689)。此外,我们还构建了多个一致性预测模型,最优的一致性预测模型对测试集中的化合物可以实现较为准确的预测(qext2=0.689)。最后,我们对一些与毒性密切相关的分子描述符和分子指纹进行了深入分析。(2).基于一个包含多个呼吸道毒性终点的小鼠数据集,采用相关向量机、支持向量机、正则化随机森林、极限梯度提升、朴素贝叶斯和线性判别分析算法构建了多个呼吸道毒性回归和分类预测模型。为了确定最优的分子描述符子集,采用标准化一卡方统计量过滤—单变量过滤rfSBF-递归特征消除RFE-RF的四级策略对原参数集进行了降维。在所有预测模型中,基于高斯径向基核的支持向量机模型对测试集的化合物定量预测精度最优(qe2xt=0.707),而极限梯度提升模型对测试集的化合物分类预测效果最优(测试集:MCC=0.644、AUC=0.893、灵敏度=82.24%、特异度=83.21%、全局精度=82.62%)。此外,我们还采用了多种方法分析了模型的应用域,并用杠杆方法确定了训练集中的41个响应异常值分子(hi>0.004)、23个结构性影响的异常值分子(标准化残差>3)和31个强影响分子(Cook距离>0.00388)。最后,我们对回归预测误差较大以及错误分类的化合物的结构特征进行了系统分析。(3).基于一个含有不同泌尿系统毒性终点的小鼠数据集,采用多种机器学习算法(支持向量机、相关向量机、正则化随机森林、C5.0决策树、极限梯度提升、Adaboost.M1、支持向量机提升和相关向量机提升算法)构建了多个回归和分类预测模型。用于回归和分类的最优的分子描述符子集的选择采用了基于随机森林的递归特征消除方法。在所有预测模型中,基于高斯径向基核的支持向量机提升模型对测试集的定量预测精度最优(qext2=0.845),而基于高斯径向基核的支持向量机提升模型对测试集的分类效果最佳(测试集:MCC=0.787、AUC=0.893、灵敏度=89.58%、特异度=94.12%、全局精度=90.77%)。此外,我们还使用了多种方法分析了模型的应用域,并用杠杆方法确定了训练集中的3个响应异常值分子(hi>0.762)、4个结构性影响的异常值分子(标准化残差>3)和10个强影响分子(Cook距离>0.02797)。最后,我们对具有较大回归预测误差的化合物及错误分类的化合物的结构特征进行了系统分析。(4).此外,我们还研究了几种新型机器学习算法的性能和适用性,相关向量机、极限梯度提升和支持向量机提升算法的性能较好,而正则化随机森林和局部近似高斯过程回归算法的性能则有待提高。