论文部分内容阅读
当今世界,中国经济蓬勃发展、国际竞争力不断提高,汉语的语言魅力吸引了越来越多的外国学习者进行学习,本文针对外国学习者学习汉语这一主题展开中文文本纠错的探究。中文文本的词语纠错方法研究是确保学习者在学习和交流时准确性的重要探究,是预估文本中错误存在与否并选取正确纠错字的关键技术手段,是中文自然语言处理研究领域中的重要课题。本文旨在辅助学习者纠正其在学习过程中产生的错误,同时也为减轻汉语教师的辅导压力。中文文本纠错研究从利于模型构建的角度出发,将纠错任务分成两大类:中文拼写纠错和中文语法纠错,分别构建模型进行纠错。在经由一系列详实的调查,概括了文本拼写问题的形成因素和类别,在N-gram语言模型基础上采用基于字的N元切分文本并统计其概率,引入混淆集和动态规划提高模型纠错效率,并使用平滑技术应对数据稀疏问题,提出了结合中文分词、二元模型和三元模型的算法,构建了基于N-gram的中文拼写纠错组合模型。针对中文语法纠错,本文将语法问题分为四大类:用词冗余、缺少词语、用词错误、词序错误。针对传统的基于统计的N元语言模型无法应对邻接词未登录以及长距离语法错误的问题,本文采用神经语言模型双向长短期记忆网络(BiLSTM)来建模,通过双向上下文信息来评测句子正误,此外,又引入了条件随机场(CRF)进行序列标注,并在嵌入层加入词性特征与词向量相结合作为BiLSTM输入,构建了基于BiLSTM-CRF的中文语法纠错模型,进一步优化了模型的纠错性能。利用开发评测数据集进行的实验结果表明,本文提出的基于N-gram的中文拼写纠错组合模型和基于BiLSTM-CRF的中文语法纠错模型在各自针对的错误领域内都取得了良好的效果。