论文部分内容阅读
药物的研发是一项非常耗时且代价昂贵的过程,为现有药物确定和开发新的治疗效果有助于降低药物的开发成本。然而,以往的预测方法往往只考虑单一来源的药物与疾病数据,没有有效的融合多种药物与疾病信息,也没有考虑到药物-疾病关联数据的稀疏性。因此,开发一种利用多种生物信息数据的药物-疾病关联预测方法非常必要。我们提出了两种融合了多种生物信息数据的预测方法,一种是基于随机游走的预测方法,另一种是基于深度学习的预测方法。(1)基于随机游走的药物与疾病关联预测方法随着生物信息数据的积累,越来越多的数据可以被应用在药物-疾病预测上来,如何高效的融合这些数据,使用这些数据精确的预测药物的候选疾病,是一个值得研究的问题。在该部分研究中,我们融合了药物的化学子结构、药物的靶蛋白、药物的基因本体三个特征数据,在此基础上计算了药物之间的3种不同的相似性数据,并构建了3种不同角度的药物相似性网络。通过结合药物相似性、疾病相似性数据和药物-疾病关联数据,构建了一个包含多种药物相似性和疾病信息的多层异构网络。面向该异构网络,提出了一种基于随机游走的药物与疾病关联预测方法MultiNRW。我们对不同的网络层进行加权,用来平衡每个网络层包含的信息对游走结果的影响,并构建了异构网络的转移矩阵。同时,加入了随机游走的重启机制,来控制游走的范围,防止引入过多的噪声数据。我们将MultiNRW方法与其他4个较好的预测方法进行比较,比较结果表明MultiNRW方法比其他几种预测方法拥有更优的预测能力。此外,对5个药物的50个候选疾病的案例分析进一步证明了MultiNRW方法有发现药物潜在适用疾病的能力。(2)基于双路卷积神经网络的药物与疾病关联预测方法由于药物和疾病之间的多种连接关系存在着复杂和非线性的关系,传统的预测方法都是浅层的模型,很难捕捉这些关联。因此,我们提出了一种基于双路卷积神经网络的药物与疾病关联预测方法DCPreRD。我们结合药物关联的疾病信息,构建了药物的第4种相似性数据。融合这4种药物相似性数据、疾病相似性数据和药物-疾病关联数据,我们建立了预测药物相关适用疾病的深度学习模型。模型的左路部分从药物和疾病相关的原始特征中学习得到药物和疾病的原始表示。右路部分从药物和疾病的邻居节点信息中学习得到其邻居表示。我们将DCPreRD方法与MultiNRW方法和其他几个较好的预测方法进行比较,在AUC、AUPR、Top k三种评估方式中,DCPreRD方法都取得了更优的预测性能。对5个药物的50个候选疾病的案例分析结果显示,DCPreRD方法能够发现有潜力的相关疾病候选,为生物学家的进一步临床实验提供了非常可靠的指导依据。