论文部分内容阅读
词法分析是自然语言处理领域中一项重要的基础任务。词法分析任务由中文分词和词性标注这两个基本任务组成。分词是一种将中文字串转换为中文词串的任务。对于中文文本分析来说,几乎所有的任务都依赖于分词。词性标注是给组成句子的每一个词指定一个词性类别的任务。对于句法分析,语义分析等高层次任务来说,词性可以帮助消解歧义,缓解词特征的稀疏性。词法分析任务虽然比较基础,但是具有着非常广泛的需求和应用前景,目前仍是自然语言处理领域中的热点问题。中文分词技术在早期由于计算资源有限以及缺乏标注语料,一般采用基于词典的规则方法。随着计算能力的增长以及标注语料的出现,中文分词的处理技术慢慢从规则方法转移到基于机器学习的方法,其中字标注方法是目前解决分词问题最常使用的手段。在深度学习兴起之后,也有一些研究者尝试利用神经网络解决分词问题,取得了一些进展。词性标注任务也存在着类似的研究路径。在本文中,首先针对传统基于字标注的分词模型基于窗口抽取局部特征,无法捕获长距离依赖的问题,我们提出使用双向长短期记忆网络代替原有特征抽取模块,该网络既可以保存长距离信息也简化了特征抽取工作。其次,我们设计了基于双向长短期记忆网络的贪心模型和结构化模型。最后我们针对通用的词嵌入与具体任务不契合的问题,我们分别设计了分词和词性标注任务相关的词嵌入模型。实验结果表明,基于双向长短期记忆神经网络的分词模型取得了和传统模型相当的效果,而且简单快速的贪心模型与结构化模型性能相当;在加入WCC(Word-context Character Embedding)模型预训练的字嵌入后,在标准数据集上取得了当前最佳或相当的性能,在领域迁移试验中也取得了不错的效果。对于词性标注模型,在加入PCS(POS Sensitive Embedding)模型预训练的词嵌入后,提升了标注系统的能力,并且PCS模型可以快速利用异构数据提高模型性能。