生物医学文本表示与挖掘关键技术研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:dashao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文本是目前重要的生物医学领域研究资源。随着生物医学技术不断发展,使记载重要生物医学记录的生物医学文献和电子病历呈爆发式的增长。同时,信息化技术的发展为进一步从大量的生物医学文本中挖掘出新知识带来机会。结合领域需求,采用生物医学文本挖掘技术精准地获取必要信息。生物医学文本挖掘涉及多阶段研究方法,每个阶段的研究技术都会对知识挖掘产生影响。为此,本文围绕生物医学文本进行研究,以生物医学文本表示和关系抽取为研究基础,进一步进行药物假设发现研究。针对现有生物医学分布式词表示模型可能会低估相近词之间的相似度,而高估远距离词之间的相似度,导致欧氏度量空间中词的相似度与人类经验判断不一致,本文将流形学习引入到生物医学分布式词表示模型中,利用流形学习将高维特征空间中的样本分布群“平铺”至一个低维空间,同时保存原高维空间中样本点之间的局部位置相关信息,平铺之后将更有利于词向量之间的距离度量。针对生物医学分布式句子表示模型尚未对句子表示的几何结构及其句子上下文的关系进行深入的研究,本文充分利用句子的几何结构,引入流形学习挖掘句子向量的内在关系,使得句子之间的语义信息和几何关系保持一致。实验结果表明,在词相似度、句子相似度匹配以及文本分类和聚类的任务上,本文所提出的方法显著提高了生物医学文本词与句子向量的表示质量。针对生物医学文本句子存在的长距离依赖信息难以捕捉的难题,本文提出了一种图神经网络与双向门控循环单元相结合的句子级药物-药物关系抽取方法,该方法一方面通过图神经网络能够建模文本的非局部依赖关系,另一方面采用双向门控循环单元建模上下文信息,两者的结合充分表达语义信息从而缓解长距离依赖问题。针对跨句级的关系抽取忽略了先验知识的问题,本文提出多头注意力机制和表示学习的模型方法抽取跨句药物-基因-突变关系,该模型通过多头注意力机制能够直接建模词之间的隐含依赖关系,同时利用知识库中的实体和关系信息,在预测关系时提供先验知识。实验结果表明,上述方法均获得了优于目前先进方法的生物医学关系抽取性能。针对当前方法建模实体关系路径信息不佳的问题,本文提出基于关系路径嵌入卷积神经网络药物发现方法。利用生物医学摘要中实体和关系构建知识图谱;再通过路径排序算法在知识图谱中生成实体间的关系概率特征;最后结合卷积神经网络和注意力机制建模关系特征。实验结果表明,结合知识图谱和深度学习方法能够捕获隐藏在文献中的药物与疾病间的复杂关联,从而有效挖掘疾病的潜在治疗药物。
其他文献
快速高效的手性药物筛选技术对保障人民的生命健康安全具有重要意义。光学手性筛选技术具有通用性、快速高效和非侵入性等优点,但筛选尺寸仅微米级,远大于手性药物分子的尺寸(<10 nm),制约了该技术的实际应用。因此,为实现手性药物分子的光学筛选,本文围绕三个关键问题:手性光学响应的激发、非手性光学力影响过大和手性光场强度不足,结合超表面共振增强技术开展了纳米级(<10 nm)光学手性筛选技术的研究,形成
学位
网络化系统中频繁的信息采集和传输会导致通信带宽和能源的浪费,在保证性能的同时,控制系统与通信协议的协同设计对高效、公平利用资源具有重要意义。本文对非线性网络化控制系统的通信与控制协同设计问题进行了系统的研究,并探讨了在车联网中的应用问题。主要工作包括如下几方面:(1)研究了基于时变通信时延影响的网络化欧拉-拉格朗日系统的分布式聚合博弈控制问题。首先,分别考虑了通信具有“小”时延和“大”时延的一组网
学位
在网络化控制系统中,多个控制器或传感器节点通过共享网络实现相互通信。由于网络的引入,各节点需要媒介接入控制协议调度以接入网络;另外,在通信过程中可能会产生数据丢包、传输延时等现象。上述通信系统的因素都会影响控制系统的性能。另一方面,不同的控制系统对网络通信能力的要求存在差异,并且控制系统数据传输量的变化会直接影响通信系统的性能。因此,网络化控制系统中的控制部分和通信部分相互耦合,为了保证网络化控制
学位
基于微纳加工工艺的半导体传感器因其具备微型化、集成化、可大规模批量化生产的潜力,非常符合当今市场对传感器发展方向的需求。其中,氮化镓(GaN)体系材料具备很好的化学稳定性、热稳定性、良好的生物相容性、低介电常数、高电子饱和速度等优点,在半导体传感器领域具有很好的材料优势。近年来,基于GaN体系材料的AlGaN/GaN基高电子迁移率晶体管(HEMT)结构在传感器领域的应用愈来愈受到大家的关注。本文围
学位
碳纳米线圈(carbon nanocoil,CNC)作为一种新颖的三维螺旋纳米材料拥有独特的结构优势及广泛的应用前景。截止目前,人们已经在CNC制备方面取得一定进步,但仍存在合成过程中副产物较多这一难题。此外,目前几乎所有针对其生长机理的研究都是围绕单一催化剂颗粒展开的,忽略了催化剂聚集状态对CNC生长的影响,同时Fe/Sn催化剂各组分作用机理也有待进一步揭示。基于上述问题,开发高纯度CNC的制备
学位
粘性摩擦阻力是运载工具的重要阻力来源之一,降低摩阻具有非常重要的意义。壁面切应力分布决定了摩阻的大小,它的测量一直是实验流体力学研究的一个难点。现有的技术难以形成稳定、抗干扰能力强、易于运载工具使用的测量工具。针对现有测量方法的局限性,本文提出了一种基于双层“三明治”热膜传感器的免标定壁面切应力测量方法。该方法使用两个相同大小的金属镍膜形成双层热膜结构。通过开尔文恒温电桥精确设定两个金属膜在相同的
学位
随着健康医疗智能化时代的到来,可穿戴式传感器等智能终端逐步普及,对光学传感技术提出了更高的要求,如何在实时无创的基础上提高传感器灵敏度、实现光学器件高度集成成为光学传感领域面临的首要问题。近年来,研究者针对以上问题开展了一系列研究。为了提高灵敏度,研究者基于超材料、二维材料等结合多种光学原理发展了多种光学生物传感器,但灵敏度仍未能满足需求;为了提高集成能力,研究者致力于设计可调谐光学生物传感器和正
学位
随着现代科学技术的发展,柔性电子器件朝着高性能、多功能化等方向发展,被广泛的应用在机器人、可穿戴电子设备和人机交互等领域,为人类生活的多个方面带来了巨大变化。常规柔性电子器件通过采用导电有机分子/聚合物材料和无机金属材料的微结构设计实现。随着相关研究不断深入,常规柔性电子器件的性能等已有很大的提升,但几个关键问题仍需解决:(1)通过对基础材料的研究进一步增强柔性器件的功能特性;(2)解决柔性电子器
学位
与传统柔性拖缆内窥镜相比,无线胶囊内窥镜检查安全、舒适、无创伤,在胃肠道疾病的诊断方面优势明显。然而,现有胶囊内窥镜缺乏主动行走和姿态控制功能,仅能依靠胃肠道蠕动或重力被动运动,其诊断效果在小肠内较好,但在胃、结肠等三维宽裕环境则存在漏检率较高的问题。此外,被动式胶囊也无法实现未来的药物输送、活检和微创手术等扩展功能。因此,通过姿态的主动控制将胶囊内窥镜的诊疗范围扩展到胃、结肠等三维宽裕环境已成当
学位
含有氮杂季碳中心的吡唑啉酮和羟吲哚骨架是许多药物先导化合物与活性天然产物的结构特征,这两类药效团杂环结构的多样化衍生因而具有重要的合成价值和药物开发潜力。近年来,利用有机不对称催化策略,一系列结构新颖、具有潜在生物活性的氮杂季碳中心吡唑啉酮和羟吲哚衍生物被相继报道。然而,就目标产物的结构多样性和合成方法的有效性而言,发展高效不对称构筑立体化学结构复杂的氮杂季碳中心吡唑啉酮和羟吲哚化合物的方法仍然是
学位