【摘 要】
:
人工智能作为计算机学科的主流分支,在生物信息学中的应用取得卓越成效。人工智能技术不仅为生物数据建模提供新的方案,同时能够探索具有生物学价值的新发现。近期Alpha Fold完成人类蛋白质组98.5%的蛋白质结构预测,掀起深度学习助力生物信息学研究的热潮。药物研发作为生物信息学研究的重要领域,谋求利用人工智能算法指导快速且精准的药物-靶标相互作用识别。药物-靶标相互作用是指药物分子与蛋白质表层上特定
论文部分内容阅读
人工智能作为计算机学科的主流分支,在生物信息学中的应用取得卓越成效。人工智能技术不仅为生物数据建模提供新的方案,同时能够探索具有生物学价值的新发现。近期Alpha Fold完成人类蛋白质组98.5%的蛋白质结构预测,掀起深度学习助力生物信息学研究的热潮。药物研发作为生物信息学研究的重要领域,谋求利用人工智能算法指导快速且精准的药物-靶标相互作用识别。药物-靶标相互作用是指药物分子与蛋白质表层上特定的靶位相结合,产生化学效应,影响蛋白质功能或激活其活性。利用计算机辅助药物-靶标关系识别最初的思路是使用药物化合物和蛋白质的三维结构数据,模拟结合的过程,但这种方法依赖巨大的计算资源和稀缺的三维数据。机器学习在对接模拟的基础上简化模型的输入,然而特征工程和专家经验容易引起信息丢失和有偏等问题。近年来,众多开源的化学数据库为深度学习应用于药物-靶标相互作用预测提供数据支撑,药理研究者尝试构建深度学习模型将原始生物数据嵌入到非线性特征向量空间,在下游任务中预测药物-靶标相互作用。大多传统的深度学习模型仅能处理规则的几何数据,例如,矩阵、序列等,而药物分子本身可建模为图,属于非欧几里得数据。因此,这些深度学习方法无法适应分子图结构,缺乏对化学空间信息的考虑。目前大规模分子库的涌现使得从不同角度设计药物-靶标相互作用预测方法成为可能。分子数据库提供了药物分子原始结构数据,能够考虑从生物特征嵌入的视角预测药物-靶标相互作用。此外,根据已记录的生物实体交互关系,例如药物-基因关联和蛋白质-蛋白质相互作用,可以建立复杂的生物关系网络,从链接预测的视角完成预定任务。图神经网络作为一种高效的图表示学习工具,在两种视角下,处理分子图和生物关系网络具有先天的优势。一方面可以嵌入分子拓扑图,学习药物的相似性,而相似度高的药物对同一靶标具有更高的结合可能性。另一方面,可建模生物关系网络,学习生物实体的潜在特征表示,进而在网络上预测药物-靶标相互作用。当前基于图神经网络的方法有效地提升药物-靶标相互作用预测的精准度,但是仍存在着尚未解决的问题:对于以药物分子结构作为模型输入的方法,没有充分考虑分子的属性,单一方面结构信息对于精确提取分子的特征存在缺失,导致不完备性;对于以生物关系网络为输入的方法,通常是在正负样本均衡的条件下设计算法完成预测任务,然而忽略现实世界中生物实验记录的药物-靶标关系是稀疏不平衡的,这种稀疏不平衡性为药物和靶蛋白的高质量表征带来挑战,干扰准确的预测。针对上述问题,结合图表示学习的相关理论对分子图以及药物-靶标相互作用网络进行建模,提出基于图神经网络的药物-靶标相互作用预测方法,主要工作内容如下:(1)针对生物特征嵌入视角存在的分子信息缺失问题,形式化异质的药物-靶标相互作用预测任务,并提出异质注意力融合分子属性的方法解决。一方面主要结合图神经网络从局部和全局同时学习分子表示,并考虑分子元素的序列特征。另一方面提出分子异质注意力融合模块将每种类型的特征加权融合,旨在提取重要性更高的分子异质增益。(2)针对生物关系网络表征中存在的真实记录的药物-靶标对稀疏问题,提出稀疏不平衡的药物-靶标相互作用预测任务。结合图对比学习最大化正样本一致性的思想,提出基于异质图数据增强的深度学习方法,在药物-靶标相互作用网络上生成多视角增强图,捕获内在的图结构模式,丰富图上的监督信号。此外,在异质属性矩阵上计算节点间相似度,融入节点相似性信息和异质属性信息以丰富节点特征。
其他文献
目前,语义分割任务主要是通过卷积神经网络提取影像数据中的语义信息,实现图像的像素级分类。随着卷积神经网络的不断发展和完善,基于神经网络的分割模型在语义分割任务中取得较高的准确率,但是这些分割模型在训练过程中通常需要强大的算力支持,无法达到实时分割的效果。现有实时分割算法虽然可以快速对图像进行分割,但在图像边缘部位分割粗糙,无法达到精细分割的效果。为了使分割算法达到精确且快速分割的效果,本文提出了多
猕猴作为人类的近亲,在生理上与人类接近,通过猕猴来探索人脑的工作机制和病理机制是人脑研究的一种重要手段。近年来,跨物种比较神经影像学新技术和方法的研究越来越受到重视,并逐渐成为脑科学研究的热门问题。目前,主要的跨物种比较方法是使用已有同源脑区作为参照系,该方法比较依赖已有同源脑区的信息,而在部分脑区的研究过程中,可能存在先验同源脑区信息缺失的情况。最近的研究表明,在高等灵长类动物中,白质组织在不同
命名实体识别作为自然语言处理领域的一项基础性研究课题,其目标是在句子中辨认并提炼出指定类型的实体词信息。准确的辨别非结构化文本中的实体词可以协助完成诸如智能翻译、自动摘要、情感分析等多项下游任务。材料命名实体识别对机器理解材料领域文献,构建材料知识库起着重要的作用,正确且高效的识别材料实体有助于提高查阅效率并减少重复的科学研究工作。但是目前材料领域命名实体识别还存在着一些不足:(1)目前常用的词嵌
股票价格预测是金融和计算机学科交叉领域的经典问题。由于股票市场内部机制极其复杂,市场波动性极强,准确预测股票价格被认为是最具挑战性的问题之一。深度学习技术在自然语言处理、图像识别等领域的成功应用为解决股票价格预测问题提供了一种新的思路和方法。长短期记忆(LSTM,Long Short-Term Memory)神经网络由于其具有链状、记忆、选择遗忘等的结构,在时间序列预测问题中表现出良好的性能,是目
伴随着工业化进程的快速发展,人们对居住的环境的空气质量提出了更高的要求。气体传感器作为空气质量监测系统的关键原件,其敏感材料的特性对传感器性能有决定性的影响。近年来,新兴的金属有机框架(Metal Organic Frameworks,MOFs)材料为开发高效的气体传感器提供了崭新思路。与传统金属氧化物材料相比,MOFs材料由于具有更大的孔隙率和比表面积,尤其是可调节的孔径以及可变的功能基团,为气
在数据挖掘、生物信息学和文本识别等应用中,高维数据带来了诸多挑战。如何利用特征选择技术从这些复杂的大数据中挖掘出能反映样本信息的关键特征,一直以来都是诸多领域中的关键问题。特征选择旨在筛选出包含重要信息的特征,同时剔除无关或冗余特征,最终获得一个具有最大信息量的特征子集,继而有效降低学习算法的计算成本,并提高数据的可读性和可解释性。本文针对高维数据中重要特征的筛选问题,以互信息和交互信息等信息度量
天文观测手段的进步要求能够高效地从海量数据中发现稀有天文现象。耀发(Flare)现象是一种恒星磁场能量快速释放后缓慢恢复至原有幅度的现象。当前对于耀发样本的研究多根据恒星的磁场信息及其统计特征生成的时间序列数据对耀发现象进行预测或分类。在由地基广角相机阵(Ground based Wide Angle Camera,GWAC)记录到的约791万条的星等变化时间序列数据集上,耀发现象正样本仅有几十条
关键词覆盖最优路径查询(Keyword-aware Optimal Route Query,KOR)查找满足关键词全覆盖和路径长度约束条件下,时间开销最小的路线,是旅行规划、路径导航等应用的高频查询。尽可能地缩短KOR的执行时间是KOR优化的最主要目标。现有算法的优化主要是采用高效的路径拓展剪枝策略,缩小搜索空间,降低算法复杂度,但是在查找长路径时,由于搜索深度大,搜索规模的增加依然过大。针对现有
肺癌是最常见的恶性肿瘤,其发病率和死亡率都逐年上升,并一直是影响人们正常生活和身体健康的首要危险因素之一。早期准确预测患者疾病特异性生存期对于疾病诊断、治疗计划和生存期改善极其重要。其最大意义,就是通过早期智能预测确定肺癌病人的重要预后因素,以便于合理防止过度诊断和医院资源的浪费,同时为临床医师和家人进行医学决策提供依据。近年来,随着医学设备的更新迭代以及计算机技术的快速发展,多模态、多时期的医学
在线网络中过大的数据量导致了“信息过载”问题,用户很难高效地从海量的网络数据中挑选出他们所感兴趣的内容。推荐模型作为应对信息过载问题的一种可靠且有效的手段,可以根据过往的历史行为记录,完成海量候选信息集合上的筛选任务,并针对用户的需求和兴趣进行个性化、精确化的推送。近年来,随着推荐任务场景中对关系建模的需求不断增长,利用图卷积网络搭建协同过滤推荐模型成为热点。图卷积网络是专门针对图数据而设计的一种