论文部分内容阅读
在自然语言处理任务中,中文词法分析是一个关键的基础研究领域,其研究成果直接关系到中文句法分析和语义分析的精确度,深刻影响机器翻译、智能问答等高级应用处理的效率。中文词法分析由中文分词和中文词性标注两个任务组成,这两个任务是中文词法分析的关键所在。然而现有的中文词法分析研究以统计方法为主,存在模型复杂、训练时间过长等缺点。随着深度学习的兴起,基于深度神经网络解决现有方法的不足成为了自然语言处理领域热点问题。首先,针对现有中文分词方法存在的训练时间长、不能有效利用长距离信息、模型结构复杂等缺点,本文提出了基于深度学习的双向门控循环神经网络和线性条件随机场组合模型。该组合模型利用门控循环神经网络强大的建模能力,通过前向和后向两个方面处理,快速得到评分矩阵,然后利用线性条件随机场模型考虑整个句子的局部特征加权,得到最终的分词结果。该组合模型突破了传统方法窗口的极限、结构简单、易于操作、可以自动学习特征、减少特定知识任务的学习、有效地利用上下文信息、真正实现端到端处理。通过在微软亚洲研究院分词语料库和北京大学分词语料库进行实验证明,本文提出的分词组合模型不仅提升了分词结果,而且在保证分词速度的基础上大大缩短了训练时间。其次,针对中文词性标注任务现有研究方法严重依赖人工特征的不足,本文在分词组合模型基础上提出了预训练算法。基于预训练算法的组合模型不仅能够自动获取特征,而且模型误差更小,随着神经网络深度的增加,鲁棒性更好,平均方差更小。通过在北京大学人民日报语料库实验分析,基于预训练算法的组合模型有效地提高了词性标注的精确度和速率。最后,针对中文词法分析任务中存在的歧义词识别问题进行研究,通过对双向门控循环神经网络进行外部权重加权,在处理常见的歧义词上取得了显著效果。在此基础上,本文进一步提出了一体化模型和针对一体化模型的优化算法。经过实验对比,一体化模型取得了比单独分词任务和词性标注任务模型更好的结果。