基于深度学习的中文命名实体识别研究

被引量 : 56次 | 上传用户:luluzhangwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文命名实体识别是自然语言处理领域中的基本任务之一,也是自动问答、信息抽取等自然语言处理综合应用中的基础环节。近十几年来,国内外学者对文本中的实体识别技术已有广泛探讨和深入研究。但随着互联网的飞速发展,大量无规则、多领域的文本数据不断增长,对命名实体识别技术提出了新的要求。本文主要工作如下:(1)对国内外命名实体识别的解决方法进行了调查研究,分析了当今主流模型方法与技术发展趋势。在总结当前主流方法的缺陷和中文命名实体识别的特殊性的同时,指出了利用深度学习的相关理论来解决中文命名实体识别问题的新思路。(2)提出了一种基于堆叠式自编码分类器的深层神经网络模型,对该模型在命名实体识别任务中的应用进行了深入研究。解决了从中文文本序列到模型输入向量的转化问题,推导了便于工程实现的向量化前向-后向传播公式。同时,总结了一套行之有效的参数初始化与调参方法,优化了模型训练过程与实体标注效果。(3)在建立模型的基础上,进行了大量的对比实验。实验结果表明,这种深层神经网络标注模型具有良好的中文实体识别效果,在人民日报语料集上的测试效果达到了当前最好水平。特别在地名、机构名的识别方面比条件随机场模型更具优势,地名与机构名的识别召回率比条件随机场的识别结果分别提升了9.60%、8.84%,F值分别提升了3.76%、2.35%。(4)实现了基于深层神经网络模型的中文命名实体识别系统。提出了增量学习的半自动化处理流程:系统结合边界熵与增量训练的半监督后处理方法,用以替代过去规则与统计结合的传统框架。解决了实践中中文标注语料匮乏、训练开销与维护成本较大的问题,使其能够在少量人工干预的前提下,快速有效地处理海量中文数据。实践表明,基于深度学习理论的神经网络模型能够很好的应用于中文命名实体识别任务。以该模型为核心建立的中文命名实体识别系统具有良好的健壮性和可维护性,能够满足大数据背景下中文命名实体识别的新需求。
其他文献
新加坡双语政策的失衡在1987年始出现,为此华文学习一直在课程水平和实际社会需要之间徘徊、波动。1987年是本地华文教育的重要分水岭,纯粹用华语讲授数学、物理、化学、语文
农村教师的专业发展问题己成为教育改革的核心问题之一。在新的以培养学生的核心素养能力为目标的课堂教学环境下,农村中小学英语教师如何实现自身的专业成长是实现农村中小
中国是农业大国,“三农”问题历来受到各界高度关注。农村特色产业作为解决“三农”问题的新经济增长点,对于调整农村经济结构、满足人们多样化的消费需求、保护物种的多样性
我国经济发展和创新已取得重大成果,这已被世界各国所瞩目,而我国经济体制改革的步伐也不断加快,目前,我国正处于财政投融资改革最为关键的时期,在财政投融资体制改革中,必须
随着先进医疗技术的迅猛发展,给现代医院的建筑布局、设备要求、环境品质、医疗流程和空间形态等带来巨大的变革。新兴的医疗空间在实际医疗救治过程中的作用不断引起人们重
<正> 近年来睾丸恶性肿瘤的治愈率已明显提高,但是,睾丸非精原细胞瘤经综合治疗后仍有约8%~10%的复发率,而睾丸精原细胞瘤尚有10%~20%不能完全缓解,故对复发睾丸肿瘤的治疗仍有重大
以某型近距格斗导弹为例,在考虑了导弹制导控制延迟基础上,建立了导弹跟踪目标的质点运动模型,并根据判断导弹与目标交汇条件,给出了一种导弹攻击区和有利攻击区快速模拟计算
IPTV是宽带互联网技术发展到一定阶段的产物,由电信运营商向用户提供了采用IP协议连接的交互式视音频业务。它为广电行业,尤其是电信行业提供了新的增值业务和商业模式。本文