论文部分内容阅读
电子病历是指对病人就诊信息的电子化记录,它记录了病人从入院到出院期间的全部信息,可以为病人或医生提供查询及决策支持。电子病历一般包括图像和文字信息,而文字信息以半结构化文本或自由文本的形式存在,以电子病历为基础的医疗数据研究,具有重要的意义。本文针对电子病历文本,主要研究内容如下:(1)电子病历的匿名化处理。电子病历中包含很多隐私信息,这些有标识的信息如果被泄露会给病人带来危害,因此要识别其中的隐私信息并进行处理。先对文本进行清洗并规范化,生成基本结构和表示方法,提出了结合边界特征的深层条件随机场模型,选择最优特征集训练。将文本表示为词向量的形式,作为神经网络的输入进行模型训练,提出了基于块表示的BR-BiRNN、BR-BiLSTM-CRF命名实体识别模型,实验结果表明其F值均高于传统方法。(2)针对妊娠高血压疾病,提出了基于特征融合的循环神经网络预测模型。妊娠高血压疾病是孕妇妊娠期间所特有的一种疾病,该病的存在影响孕妇和胎儿健康,及早发现孕妇是否患病对保障母婴健康有重要意义。本文针对妇产科电子病历文本进行预处理后,提出了特征融合的方法,将词向量和词性向量进行拼接得到融合后的特征(mixed feature),模型无需其他专业医疗经验,就可以实现较好的训练结果,分别采用word feature和mixed feature进行对照实验,实验表明采用mixed feature比采用单一word feature正确率提高了约2%。(3)提出了基于文本数值化的TQ-LSTM妊娠高血压预测模型。首先通过信息抽取将文本数值化表示,提取了与孕妇身体状态相关的生理参数作为特征向量,并对缺失数据进行了补全。同时与一般结构的RNN模型对比,实验结果显示TQ-LSTM模型实现了对妊娠高血压疾病的预测,而且比一般RNN模型的正确率更高。