基于深度学习的中文命名实体识别方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:heartless850
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为文本数据处理中一项关键且基础的工作,其任务是识别出待处理文本中各个代表具体实际意义的实体。命名实体识别是关系抽取和事件抽取等高层任务的关键,也是文本分类和问答系统等应用的基石。命名实体识别的准确度将直接影响后续工作的效果。传统命名实体识别方法需要大量手工标注及特征提取,针对这个缺陷,本文探索自动化完成命名实体识别的新方法,构建了一种基于双向长短时记忆网络(B-LSTMs)的新模型。通过无监督训练得到分布式特征向量,将添加额外特征的分布式向量输入到B-LSTMs网络中发现词语的深层特征,最终通过分类器输出命名实体类别。通过大型语料库训练的B-LSTMs网络模型进行命名实体识别任务得到最佳F值为92.47%。实验结果表明,该方法综合了上下文信息等因素,具有不错效果。针对B-LSTM网络方法需要顺序读入整个文本,只能单线程训练的问题,本文构建了一种基于迭代空洞卷积网络(ID-CNN)的命名实体识别模型。该模型兼顾CNN并行化及RNN上下文理解广度,可以实现在GPU环境下的并行化加速。在损失可接受范围的F值的情况下,该模型比B-LSTMs模型训练速度提高三倍左右,命名实体识别任务最佳F值为90.82%。实验结果表明,模型具有较快的响应速度、较高的准确率和召回率。本文利用B-LSTM和ID-CNN对神经网络语言模型进行了扩展,提出了两种性能略优于其他方法的新型深层模型,具有一定的使用价值。该研究为解决其它同类型标注问题提供了新思路。
其他文献
de Winter综合征是与ST段抬高型心肌梗死等同的一种特殊疾病,其特征是没有明显的ST段抬高,表现为上斜型ST段压低,心前导联出现高而对称的T波,并通常与冠状动脉左前降支完全阻
患者男,36岁,主因左眼磨痛7d于2011年5月27日入院。入院检查:视力:右眼:1.0,左跟:眼前手动,右眼未见明显异常,左眼眼睑水肿.结膜混合充血,角膜广泛灰白浸润,表面分泌物稠厚,余窥不清。显微