临床医疗文本中实体时序化问题研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:myna5726
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着医疗信息化进程的不断推进,临床医疗信息处理技术正逐渐成为一个新的研究热点,受到大量科研机构和商业公司的关注。电子病历(Electronic Medical Record,EMR)作为医疗机构重要的信息载体,成为了医疗信息处理技术研究的重要数据来源,其中包含患者的疾病、症状、检查、治疗等医疗实体信息。这些信息对于分析患者健康状况、辅助医生诊断等方面起到十分重要的作用。那么,如何从非结构化医疗文本中抽取出这些医疗信息成为了医疗信息处理首要的任务。不同于通用领域的命名实体信息,医疗实体信息具有较高的时间敏感性,使得时间信息也成为了更好分析医疗文本必不可少的因素。那么,如何融合医疗实体与时间信息也成为了新的研究方向。为了解决上述问题,本文针对临床医疗实体时序化问题进行了深入研究,通过对临床医疗实体的识别、时间表达式的抽取以及医疗实体的时间标引,将医疗实体标引到时间轴上的具体时间节点或者时间区间上,从而实现了临床医疗实体的时序化过程。在实际应用场景方面,本文临床医疗实体时序化方法可以简明准确地实现对临床医疗文本的概述,极大地方便医生与患者对文本病历信息的快速浏览。此外,基于本文方法生成的医疗实体时序化链,还可以从大量的医疗文本病历中挖掘出不同疾病的临床检查项目、治疗手段和用药情况等信息,这些信息可以进一步为医生诊断疾病提供辅助和与参考。可以看出,本文临床医疗实体时序化问题的研究为后续相关的医疗信息处理任务打下了基础。此外,本文研究基于大量真实的中文临床医疗文本数据,其中包含了大量患者和医生的隐私信息。美国HIPAA(Health Insurance Portability and Accountability Act)法案明确规定所有临床医疗数据在用于科研和商业之前,必须去除或者替换掉全部的隐私信息。因此,为了保护患者和医生的隐私信息,本文对临床医疗文本的去隐私化方法也进行了相关的研究。下面简要概述本文的主要研究内容及成果,包括以下几个方面:第一,临床医疗文本的去隐私化方法研究。在去隐私化处理中,本文首先对临床医疗文本中的隐私信息进行识别,然后利用虚构的信息对原始真实隐私信息进行替换,进而实现了患者隐私信息的保护。对于隐私信息的识别,本文提出了一种多模型集成的隐私信息识别方法,利用四个独立的子模型(规则模型、条件随机场模型、循环神经网络模型和融合特征的神经网络模型)分别对隐私信息进行识别,然后采用一个集成分类器对各个模型的结果进行融合。实验结果表明,多模型集成方法取得了较好的性能,明显优于单个子模型的性能。此外,循环神经网络模型的性能要优于传统条件随机场模型,而融合人工特征之后,循环神经网络模型的性能又得到了进一步提高。第二,连续及非连续临床医疗实体识别方法研究。区别于传统命名实体识别任务,临床医疗实体识别旨在对于医疗文本中的疾病、症状、治疗等重要医疗信息进行识别。而由于临床医疗文本表述的特殊性,其中也存在大量的非连续医疗实体,如“头部轻微疼痛”中的“头部…疼痛”。针对医疗实体识别问题,本文提出了一种基于自注意力卷积循环神经网络的连续及非连续医疗实体识别方法CNN-LSTM-ATT。该方法融合了卷积神经网络、循环神经网络和注意力机制来对医疗实体进行识别。实验结果表明,CNN-LSTM-ATT模型取得了优于传统条件随机场和循环神经网络模型的性能。模型中基于卷积神经网络的特征学习模块和基于自注意力机制的标签预测模块发挥了重要的作用。第三,临床医疗文本中时间表达式抽取及其归一化方法研究。针对临床医疗文本中的时间信息,本文提出了一种基于规则的时间表达式抽取及其归一化方法CMed TEX。该方法将时间信息划分为三种类型:直接时间表达式(完整且准确)、间接时间表达式(不完整但准确)和模糊时间表达式(不准确),然后针对不同类型的时间表达式依次设计相应的抽取和归一化规则。该方式简化了规则库的构建过程。在人工标注数据集上的实验结果表明,CMed TEX方法取得了较好的性能,能够满足相关任务的需求,也为后续研究打下了基础。第四,临床医疗实体时间标引方法研究。本文首先采用基于章节信息的候选时间选择方法,为每个医疗实体生成相应的候选时间集合。然后进一步提出了一种基于循环卷积神经网络(RNN-CNN)的医疗实体时间标引方法。该方法通过循环神经网络与卷积神经网络分别对医疗实体和时间表达式的向量表示进行学习,然后结合大量时间关系特征共同完成对医疗实体时间关系的预测。实验结果表明,RNN-CNN模型取得了较好的性能,明显优于支持向量机和其他神经网络模型。最后通过标引时间的顺序实现了临床医疗实体的时序化。综上所述,本文针对临床医疗实体时序化问题的相关技术进行了深入的研究。构建了大规模的中文医疗文本数据集,并针对不同任务提出了相应的解决方法且取得了不错的性能,为临床医疗信息处理技术的研究做出了贡献。
其他文献
公钥基础设施(Public Key Infrastructure, PKI)能够保障网络安全,解决网络通信中的信息安全问题。目前存在集中式和分布式两种PKI技术。分布式PKI作为一种新的技术方案,较好
随着国际上恐怖爆炸活动的日趋频繁,世界各国越来越重视排爆机器人领域的研究,如何提高排爆机器人作业的成功率成了各国科技工作者的一个重要的课题。排爆机器人能否成功抓取
随着互联网技术和成像的不断发展,图像的数量在急速增加,一个亟待改善的问题就是,对于如此海量的图像数据,如何进行有效的图像检索显得至关重要。而随着图像处理技术和索引技术的
随着三维模型获取技术的发展、图形硬件性能的提高和三维模型在计算机图形学领域的广泛应用,点云曲面已经成为三维模型的主要表达手段之一,其在逆向工程、多媒体、CAD等领域
随着信息技术的发展和日益增长的对安全的需要,基于虹膜识别的智能个人身份识别作为一种高度可靠的非侵犯性生物特征识别方式越来越受到人们的重视。 虹膜识别系统一般可
随着生物特征识别技术的发展,虹膜识别技术受到了广泛的关注。目前关于虹膜识别技术的研究领域里,已经有一些算法被证明有效。虹膜识别的整个过程大致分为虹膜定位、特征提取
本文在基于粗糙集理论的基础上,探讨知识粗糙性的表达方法和应用等方面问题的研究。 在知识处理中,知识被定义为一个或多个信息之间的关联(关系或联系)。知识是人类实践经
软件重用是一种提高软件生产效率和软件质量的切实可行的途径。在基于构件重用的软件开发过程中,构件库系统扮演了重要角色。实践中构件数量不断增长,构件也随技术和领域演化
传统的流媒体技术采用服务器/客户端模式提供服务,存在扩展性有限,系统成本昂贵等缺陷。对等网络采用对等服务的理念,避免了传统模式的诸多问题,然而,基于对等网络的流媒体服
目前,在商业系统的开发过程中存在着很多重复性的工作,造成了资源的浪费以及系统的高维护代价和更新代价。Web服务和服务组合的提出可以很好的解决这些问题。在详细分析了Web