论文部分内容阅读
在医疗临床领域,能够准确地识别电子病历中的命名实体,无论对于构建完善的医疗知识库,还是构建精准的患者用户画像都具有重要的意义。在中文命名实体识别中,由于中文分词的词边界问题和汉语表述的多样性,目前还不能够做到精准识别中文电子样例中的命名实体。当前存在的中文医疗领域命名实体识别(Chinese Medical Named Entity Recognition,简称CMNER,下同)的深度学习方法中,通常都是将汉字级别的编码向量输入神经网络系统,这样做的目的是避免分词给实体识别带来的噪声问题。但是这样往往忽略了词汇级别丰富的语义信息。为了解决此问题,本文将基于正向最大匹配算法(FMM)的词汇编码向量加入神经网络,用来表征更丰富的语义和位置特征。针对中文语言的词边界难点,本文提出了两种基于汉字-词汇不同粒度联合编码的深度学习模型。本文在传统BiLSTM-CRF模型的基础上,根据词汇级向量传入模型的不同方式,提出了平行编码模型和混合编码模型。另外,本文还对比了改进的n-gram特征、结合位置的实体特征(TLCP)、与位置无关的实体特征(TLNP)三种不同特征信息对深度学习模型的影响。实验结果表明,基于汉字-词汇不同粒度的联合编码方式能够获得更丰富的语义和位置特征,在全国知识图谱与语义计算大会(CCKS 2017)测评任务2中取得了更好的结果,相关工作成果发表在IJCNN2019(CCF-C类)会议中。针对已标注样本和未标注样本的数据集特点,将主动学习方法应用于平行编码模型和混合编码模型,提出了主动学习-深度学习联合模型。本文得到了比赛数据中1596份已标注的中文电子病历文本和10420份未标注的中文电子病历文本。为了充分利用未标注样例、有效扩大训练集的样本个数,本文提出一种基于池的主动学习方法,从多样性和不确定性两个角度筛选出有代表性的未标注文本200份。对主动学习筛选出的样本,本文采用众包的方式进行人工标注,得到新增词汇106个。实验结果表明,在平行编码模型和混合编码模型中加入主动学习后,不仅能够取得更为准确的实体识别效果,而且能够获得更快的模型收敛速度。综上所述,本文主要研究了结合主动学习的平行编码模型和混合编码模型,实验表明文中的方法能够取得更快的收敛速度和更好的实验效果。另外,本文在构建n-gram特征、设计众包标注方法等方面具有一定的创新性,在实际应用中具有一定的参考意义。