论文部分内容阅读
新药发现与研发过程是一个非常消耗时间、同时既花费巨大又充满风险的过程。典型的药物发现研发周期大致为14年,其花费从8亿到10亿美元不等。在过去的几十年内,尽管制药公司对新药物研发的资金投入大大增加,但由于药物研发过程的低效和高失败率,得到的产出却远远无法与投入成正比。计算机辅助药物设计,尤其是虚拟筛选技术,是缩短药物研发周期以及减少药物研发成本和风险的有效方法之一。本文以虚拟筛选中常用的分子相似性比较方法为主线,详细讨论了几种新颖的基于分子相似性的虚拟筛选方法的设计、实现与应用。这些新方法覆盖了不同的适用范围,包括小分子与小分子之间的相似性评价、小分子与结合位点之间的相似性评价以及结合位点与结合位点之间的相似性评价。本文的主要工作如下:1)使用球面函数表征和球谐函数投影方法,实现了一种具有旋转不变性的分子表面形状描述符,并且使用加权相似性评价的方法,充分考虑了具体数据集中分子形状的特征。针对特定的靶标体系,采用遗传算法搜索一组最优的权值以便能够将训练集上的活性分子与非活性分子较好地区分开来,进而发展了一套基于球谐函数的分子相似性比较算法SHeMS。测试结果显示,经过权值优化后的相似性评价方法的虚拟筛选性能有了相对较大程度的提高。2)对球谐函数分子形状描述符的应用做了进一步扩展,尝试使用模式识别的方法进行活性分子的识别。我们将球谐函数分子形状描述符用于分子表征,并构建不同的分类器用于进行活性分子识别,包括朴素贝叶斯分类器、决策树、人工神经元网络和支持向量机模型。为了应对数据集中的不平衡数据对分类性能带来的负面影响,不同的平衡策略被用于对标准的训练算法进行改进。测试结果显示,采用平衡训练算法所构建的分类器能够在很大程度上缓解不平衡训练集对分类器的不利影响,并且取得了相对合理的分类性能。3)设计实现了一种基于高斯体积和分子叠合的分子相似性计算方法SimG。我们以高斯函数表征分子的体积,并使用高效单纯形搜索算法用于优化分子叠合;此外,评价分子的化学特征匹配程度也是分子叠合的标准之一。该方法具有较强的适用性,不仅可以用于基于配体的虚拟筛选(评价小分子与小分子之间的相似性),还可以用于基于结构的虚拟筛选(评价结合位点与小分子之间的相似性)。同时,对基于上述两种策略(基于配体与基于结构)的虚拟筛选结果进行对比和分析的结果显示,基于结构策略的虚拟筛选性能在很大程度上与作为提问结构的结合位点本身的结构特点相关,其计算精度与结合位点的开放程度有较大关联。4)设计实现了一种基于残基位置和类型匹配的结合位点相似性评价方法。该方法利用残基的三维位置信息和类型信息对两个给定的结合位点进行叠合,并评价其相似程度。其中,整个叠合的过程由单纯形搜索算法进行引导,并且使用一种基于匈牙利算法的方法进行残基对应关系的识别。在对应数据集上的测试结果显示,该方法在蛋白质分类与筛选方面有很大的应用潜力。