基于循环神经网络的中文影像报告命名实体识别研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:zzg770707
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
快速发展的医疗信息系统产生了海量的临床文本,它们用文本形式记录了大量的健康信息,是改善临床护理和支持研究的宝贵信息来源,同时这些海量、非结构化数据也给自动管理和高效利用提出了巨大的挑战。影像报告是一种典型的临床文本,从非结构化的影像报告中抽取医疗概念,可以为病历分类、精细患者分群以及自动问答系统等提供支持。中文影像报告作为一种专业临床文本,具有鲜明的语言特点和更为复杂的语言形式,同时中文临床文本缺少公开标注语料,所以相比较通用领域文本,中文影像报告的分析应用面临更大的困难。本文针对中文影像报告,研究命名实体识别的方法,主要工作包括以下几个方面:第一,参考I2B2标注体系,结合中文影像报告的特点,在医务人员的指导下,本文制定了影像报告命名实体识别的标注方案,分别建立了规模为39954个字符的分词标注与分字标注的影像报告语料库。第二,根据手工创建的影像报告标注语料库,以双向循环神经网络为基本框架,本文基于LSTM单元、GRU单元和条件随机场设计了三种不同的中文影像报告命名实体识别模型。第三,本文通过影像报告语料库训练构建的中文影像报告命名实体识别模型,并通过实验对模型的性能进行评估和分析;实验的结果表明,相比较基于CRF的传统模型,双向循环神经网络在中文影像报告实体识别中有更好的适应性;此外,相比较分词标注方法,分字标注获得更好的实验效果。最后,本文设计并实现了一个中文影像报告命名实体识别的原型系统,直观展示了中文影像报告命名实体识别的过程和结果。
其他文献
期刊
日前,天宝公司(Trimble)农业技术与应用媒体沟通会在京举行,天宝公司中国区总经理陈朝晖以及农业产品销售经理沈非向参会媒体介绍了天宝在农业领域中的技术应用与发展以及在中国
实行森林分类经营是我国社会主义市场经济条件下林业发展一项全面性,根本性改革也是实现林业可持续发展的客观要求。对生态林业建设应实行统一规划,合理布局,因地制宜,突出重点,分
杜若飞 北京人,奔腾厩主。现为北京美术家协会会员,中国当代实力派画家,淮河画院副院长,北京奔腾文化发展有限公司董事长。他自幼受家父、著名书画篆刻家杜培源先生的熏陶,喜
上中学的时候,我就仰慕北京大学,对校园里的未名湖更是倾心已久。去年到中央党校学习,听说北大就在附近,于是利用晚上闲暇时间,我特意来到慕名已久的北大。尽管夜色中的未名湖畔,一
本文结合古山矿工程地质条件,运用数值模拟方法,模拟分析了综放工作面两巷围岩变形破坏特征,总结出古山矿综放工作面两巷围岩的破坏规律与破坏特征。
南京港华物流有限公司传统的堆场装卸工艺已不能满足日益增长的生产需求,须进行改进。提出了用门式起重机替代叉车、轮胎吊的方案。分析改造后的节能效果,提出了进一步改进的