结合主动学习的中文医疗命名实体识别研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:cz1502008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在医疗临床领域,能够准确地识别电子病历中的命名实体,无论对于构建完善的医疗知识库,还是构建精准的患者用户画像都具有重要的意义。在中文命名实体识别中,由于中文分词的词边界问题和汉语表述的多样性,目前还不能够做到精准识别中文电子样例中的命名实体。当前存在的中文医疗领域命名实体识别(Chinese Medical Named Entity Recognition,简称CMNER,下同)的深度学习方法中,通常都是将汉字级别的编码向量输入神经网络系统,这样做的目的是避免分词给实体识别带来的噪声问题。但是这样往往忽略了词汇级别丰富的语义信息。为了解决此问题,本文将基于正向最大匹配算法(FMM)的词汇编码向量加入神经网络,用来表征更丰富的语义和位置特征。针对中文语言的词边界难点,本文提出了两种基于汉字-词汇不同粒度联合编码的深度学习模型。本文在传统BiLSTM-CRF模型的基础上,根据词汇级向量传入模型的不同方式,提出了平行编码模型和混合编码模型。另外,本文还对比了改进的n-gram特征、结合位置的实体特征(TLCP)、与位置无关的实体特征(TLNP)三种不同特征信息对深度学习模型的影响。实验结果表明,基于汉字-词汇不同粒度的联合编码方式能够获得更丰富的语义和位置特征,在全国知识图谱与语义计算大会(CCKS 2017)测评任务2中取得了更好的结果,相关工作成果发表在IJCNN2019(CCF-C类)会议中。针对已标注样本和未标注样本的数据集特点,将主动学习方法应用于平行编码模型和混合编码模型,提出了主动学习-深度学习联合模型。本文得到了比赛数据中1596份已标注的中文电子病历文本和10420份未标注的中文电子病历文本。为了充分利用未标注样例、有效扩大训练集的样本个数,本文提出一种基于池的主动学习方法,从多样性和不确定性两个角度筛选出有代表性的未标注文本200份。对主动学习筛选出的样本,本文采用众包的方式进行人工标注,得到新增词汇106个。实验结果表明,在平行编码模型和混合编码模型中加入主动学习后,不仅能够取得更为准确的实体识别效果,而且能够获得更快的模型收敛速度。综上所述,本文主要研究了结合主动学习的平行编码模型和混合编码模型,实验表明文中的方法能够取得更快的收敛速度和更好的实验效果。另外,本文在构建n-gram特征、设计众包标注方法等方面具有一定的创新性,在实际应用中具有一定的参考意义。
其他文献
陆地生态系统碳水循环在不同的时空尺度上互为反馈,作为表征生态系统碳水循环耦合程度的重要指标,水分利用效率(Water use efficiency,WUE)的时空变化特征及其原因成为当今全
<正>以音乐播放器为研究对象,提出一种基于STM32的音乐播放器的硬件和软件的设计方法,系统以STM32F103ZET6为控制核心,音频解码芯片VS1053B实现音频数据解码,挂载FATFS文件系
辽河是我国七大河流之一,而西辽河又是辽河的两大支流之一,它由南源西拉木伦河和北源老哈河汇流而成,流经开鲁、通辽、科左中旗、双辽等地区。历史上西辽河灾害频发,它的有效
假设贴近现实的重要性不言而喻。区别于传统财务理论,高阶梯队理论拓宽了理性假设的外延,认为管理者的心理特征是影响企业战略选择的重要因素。大量研究也证实了过度自信这一
船板表面麻坑缺陷严重损害船板的表面质量,是影响船板外观和后序生产过程的重要表面缺陷类别之一,长期以来一直困挠着钢厂和用户。本文通过对船板生产、用户的储存和使用进行跟
通过对国内10所高校新版学生违纪处分办法的比较剖析,发现样本高校新办法仍存在定位不清、程序不完善、定性量纪不统一等情况,提出学生违纪处分办法的修订应按照高校学生管理
采用熔融法,用石油树脂分别对短、中、长油度醇酸树脂进行改性,制备了快干工业底漆,考察了醇酸树脂的油度、石油树脂与醇酸树脂配比对改性的快干工业底漆性能的影响,得到石油
热压罐成型工艺是航空航天领域用复合材料构件的重要制备方法之一,工艺过程涉及热和压力在多相材料体系间复杂的相互作用,并影响复合材料成型质量。在物理化学作用机理研究基
现代农业园区对促进农业现代化水平提升具有重要的作用,是农业现代化发展的基本载体。本文以德国生态农业园区、荷兰设施农业园区、美国科技农业园区及日本休闲农业园区为例,
黑木耳是一种食药兼用菌,具有多种保健功能,其功能成分及特性正在逐渐被开发利用。目前,黑木耳产品以黑木耳干品为主,品种单一,附加值低。所以为丰富黑木耳产品的种类,充分利