论文部分内容阅读
近些年,随着医疗信息化进程的不断推进,临床医疗信息处理技术正逐渐成为一个新的研究热点,受到大量科研机构和商业公司的关注。电子病历(Electronic Medical Record,EMR)作为医疗机构重要的信息载体,成为了医疗信息处理技术研究的重要数据来源,其中包含患者的疾病、症状、检查、治疗等医疗实体信息。这些信息对于分析患者健康状况、辅助医生诊断等方面起到十分重要的作用。那么,如何从非结构化医疗文本中抽取出这些医疗信息成为了医疗信息处理首要的任务。不同于通用领域的命名实体信息,医疗实体信息具有较高的时间敏感性,使得时间信息也成为了更好分析医疗文本必不可少的因素。那么,如何融合医疗实体与时间信息也成为了新的研究方向。为了解决上述问题,本文针对临床医疗实体时序化问题进行了深入研究,通过对临床医疗实体的识别、时间表达式的抽取以及医疗实体的时间标引,将医疗实体标引到时间轴上的具体时间节点或者时间区间上,从而实现了临床医疗实体的时序化过程。在实际应用场景方面,本文临床医疗实体时序化方法可以简明准确地实现对临床医疗文本的概述,极大地方便医生与患者对文本病历信息的快速浏览。此外,基于本文方法生成的医疗实体时序化链,还可以从大量的医疗文本病历中挖掘出不同疾病的临床检查项目、治疗手段和用药情况等信息,这些信息可以进一步为医生诊断疾病提供辅助和与参考。可以看出,本文临床医疗实体时序化问题的研究为后续相关的医疗信息处理任务打下了基础。此外,本文研究基于大量真实的中文临床医疗文本数据,其中包含了大量患者和医生的隐私信息。美国HIPAA(Health Insurance Portability and Accountability Act)法案明确规定所有临床医疗数据在用于科研和商业之前,必须去除或者替换掉全部的隐私信息。因此,为了保护患者和医生的隐私信息,本文对临床医疗文本的去隐私化方法也进行了相关的研究。下面简要概述本文的主要研究内容及成果,包括以下几个方面:第一,临床医疗文本的去隐私化方法研究。在去隐私化处理中,本文首先对临床医疗文本中的隐私信息进行识别,然后利用虚构的信息对原始真实隐私信息进行替换,进而实现了患者隐私信息的保护。对于隐私信息的识别,本文提出了一种多模型集成的隐私信息识别方法,利用四个独立的子模型(规则模型、条件随机场模型、循环神经网络模型和融合特征的神经网络模型)分别对隐私信息进行识别,然后采用一个集成分类器对各个模型的结果进行融合。实验结果表明,多模型集成方法取得了较好的性能,明显优于单个子模型的性能。此外,循环神经网络模型的性能要优于传统条件随机场模型,而融合人工特征之后,循环神经网络模型的性能又得到了进一步提高。第二,连续及非连续临床医疗实体识别方法研究。区别于传统命名实体识别任务,临床医疗实体识别旨在对于医疗文本中的疾病、症状、治疗等重要医疗信息进行识别。而由于临床医疗文本表述的特殊性,其中也存在大量的非连续医疗实体,如“头部轻微疼痛”中的“头部…疼痛”。针对医疗实体识别问题,本文提出了一种基于自注意力卷积循环神经网络的连续及非连续医疗实体识别方法CNN-LSTM-ATT。该方法融合了卷积神经网络、循环神经网络和注意力机制来对医疗实体进行识别。实验结果表明,CNN-LSTM-ATT模型取得了优于传统条件随机场和循环神经网络模型的性能。模型中基于卷积神经网络的特征学习模块和基于自注意力机制的标签预测模块发挥了重要的作用。第三,临床医疗文本中时间表达式抽取及其归一化方法研究。针对临床医疗文本中的时间信息,本文提出了一种基于规则的时间表达式抽取及其归一化方法CMed TEX。该方法将时间信息划分为三种类型:直接时间表达式(完整且准确)、间接时间表达式(不完整但准确)和模糊时间表达式(不准确),然后针对不同类型的时间表达式依次设计相应的抽取和归一化规则。该方式简化了规则库的构建过程。在人工标注数据集上的实验结果表明,CMed TEX方法取得了较好的性能,能够满足相关任务的需求,也为后续研究打下了基础。第四,临床医疗实体时间标引方法研究。本文首先采用基于章节信息的候选时间选择方法,为每个医疗实体生成相应的候选时间集合。然后进一步提出了一种基于循环卷积神经网络(RNN-CNN)的医疗实体时间标引方法。该方法通过循环神经网络与卷积神经网络分别对医疗实体和时间表达式的向量表示进行学习,然后结合大量时间关系特征共同完成对医疗实体时间关系的预测。实验结果表明,RNN-CNN模型取得了较好的性能,明显优于支持向量机和其他神经网络模型。最后通过标引时间的顺序实现了临床医疗实体的时序化。综上所述,本文针对临床医疗实体时序化问题的相关技术进行了深入的研究。构建了大规模的中文医疗文本数据集,并针对不同任务提出了相应的解决方法且取得了不错的性能,为临床医疗信息处理技术的研究做出了贡献。