论文部分内容阅读
在药物设计中,目前已有靶点空间很多已经接近饱和,新兴或者潜在的药物靶点的药物设计成为目前的研究热点。然而,这些新兴或者潜在的药物靶点拥有的已知活性配体样本信息往往不充分,随着深度迁移学习的迅猛发展,它为我们解决样本信息不充分下的配体虚拟筛选面临的挑战提供了很好的契机。因此,本文提出了一种面向配体虚拟筛选的深度迁移学习算法,用于预测药物靶标与配体作用的生物活性。算法的具体步骤为:首先,获取样本量不充足的目标数据集,按迁移学习的相似性原则,找到与其相似且样本量充足的数据集作为源域数据集;然后,利用源域数据集在新型加权深度学习算法中构建学习模型,训练后得到参数模型;接着,利用迁移学习的参数迁移方法,将源域得到的参数模型迁移至目标域,帮助目标域训练得到学习模型;最后,通过随机森林算法得出目标域最终的预测活性值。本文在54个数据集上验证了我们的算法,通过两个常用的评价指标相关系数r~2和均方误差RMSE来衡量回归预测的结果。实验选择的对比算法为加权深度学习算法和加权深度迁移学习算法,最终的实验表明,回归预测模型的r~2比加权深度学习算法平均提升45%,比加权深度迁移学习算法平均提升24%,验证了本文提出的深度迁移学习算法的有效性。