基于深度学习的中文命名实体识别方法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户：heartless850

【摘要】

：

命名实体识别作为文本数据处理中一项关键且基础的工作,其任务是识别出待处理文本中各个代表具体实际意义的实体。命名实体识别是关系抽取和事件抽取等高层任务的关键,也是文

【作者】

：

田源

【出处】

：

湖南大学

【发表日期】

：

2004年期

【关键词】

：

文本数据处理命名实体识别深度学习双向长短时记忆网络迭代空洞卷积网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

命名实体识别作为文本数据处理中一项关键且基础的工作,其任务是识别出待处理文本中各个代表具体实际意义的实体。命名实体识别是关系抽取和事件抽取等高层任务的关键,也是文本分类和问答系统等应用的基石。命名实体识别的准确度将直接影响后续工作的效果。传统命名实体识别方法需要大量手工标注及特征提取,针对这个缺陷,本文探索自动化完成命名实体识别的新方法,构建了一种基于双向长短时记忆网络(B-LSTMs)的新模型。通过无监督训练得到分布式特征向量,将添加额外特征的分布式向量输入到B-LSTMs网络中发现词语的深层特征,最终通过分类器输出命名实体类别。通过大型语料库训练的B-LSTMs网络模型进行命名实体识别任务得到最佳F值为92.47%。实验结果表明,该方法综合了上下文信息等因素,具有不错效果。针对B-LSTM网络方法需要顺序读入整个文本,只能单线程训练的问题,本文构建了一种基于迭代空洞卷积网络(ID-CNN)的命名实体识别模型。该模型兼顾CNN并行化及RNN上下文理解广度,可以实现在GPU环境下的并行化加速。在损失可接受范围的F值的情况下,该模型比B-LSTMs模型训练速度提高三倍左右,命名实体识别任务最佳F值为90.82%。实验结果表明,模型具有较快的响应速度、较高的准确率和召回率。本文利用B-LSTM和ID-CNN对神经网络语言模型进行了扩展,提出了两种性能略优于其他方法的新型深层模型,具有一定的使用价值。该研究为解决其它同类型标注问题提供了新思路。

其他文献

The Selection of Equipment and Parameters for Green Salt Production by Hydro-fluorination of UO2

期刊