基于深度学习的中文词法分析模型算法研究

来源 :浙江理工大学 | 被引量 : 2次 | 上传用户:pikaqiuqqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理任务中,中文词法分析是一个关键的基础研究领域,其研究成果直接关系到中文句法分析和语义分析的精确度,深刻影响机器翻译、智能问答等高级应用处理的效率。中文词法分析由中文分词和中文词性标注两个任务组成,这两个任务是中文词法分析的关键所在。然而现有的中文词法分析研究以统计方法为主,存在模型复杂、训练时间过长等缺点。随着深度学习的兴起,基于深度神经网络解决现有方法的不足成为了自然语言处理领域热点问题。首先,针对现有中文分词方法存在的训练时间长、不能有效利用长距离信息、模型结构复杂等缺点,本文提出了基于深度学习的双向门控循环神经网络和线性条件随机场组合模型。该组合模型利用门控循环神经网络强大的建模能力,通过前向和后向两个方面处理,快速得到评分矩阵,然后利用线性条件随机场模型考虑整个句子的局部特征加权,得到最终的分词结果。该组合模型突破了传统方法窗口的极限、结构简单、易于操作、可以自动学习特征、减少特定知识任务的学习、有效地利用上下文信息、真正实现端到端处理。通过在微软亚洲研究院分词语料库和北京大学分词语料库进行实验证明,本文提出的分词组合模型不仅提升了分词结果,而且在保证分词速度的基础上大大缩短了训练时间。其次,针对中文词性标注任务现有研究方法严重依赖人工特征的不足,本文在分词组合模型基础上提出了预训练算法。基于预训练算法的组合模型不仅能够自动获取特征,而且模型误差更小,随着神经网络深度的增加,鲁棒性更好,平均方差更小。通过在北京大学人民日报语料库实验分析,基于预训练算法的组合模型有效地提高了词性标注的精确度和速率。最后,针对中文词法分析任务中存在的歧义词识别问题进行研究,通过对双向门控循环神经网络进行外部权重加权,在处理常见的歧义词上取得了显著效果。在此基础上,本文进一步提出了一体化模型和针对一体化模型的优化算法。经过实验对比,一体化模型取得了比单独分词任务和词性标注任务模型更好的结果。
其他文献
经济高速发展,人们开始关注建筑的安稳性特征,此时自动消防设备就应运而生了。它们的存在是为了确保建筑不会受到火情的影响而出现的。文章重点的以现在某市的该项设备为例,开展
光大证券内幕交易民事赔偿案的判决具有标志性意义,可能预示着相关部门在投资者权益保护方面走出新的步伐。2015年9月30日下午,光大证券内幕交易民事赔偿案在上海相关法院再次
<正> 羟乙基纤维素(以下简称HEC)在国外是纤维素醚类中工业化生产较早的品种之一。由于它具有增稠、悬浮、分散、乳化、粘合、成膜、保持水分和提供保护胶体作用等优良性能,