论文部分内容阅读
随着微型计算机技术的发展,信息产生的速度飞速增长。传统文本工作基本上全部在计算机上进行。然而只要涉及到文本的领域,就难免存在文本错误的问题。传统人工校对的方式很难满足日益增加的文本校对需求,人们迫切的需要一种高速、可靠的自动文本校对技术。中文文本自动校对技术可以帮助人们校对各个领域中遇到的文本错误,包括政府、媒体发布的公告、新闻和学者投稿的学术论文、研究报告等文本资料,在文字识别和语音识别等其他自然语言处理任务上,也能发挥巨大的作用。综上,研究自动文本校对具有广泛的应用领域和实用价值。在深入调研了国内外文本校对相关研究的基础上,本文进行了以下三方面的研究:1.中文字词错误校对。在分析了前人研究的相关算法优缺点的基础上,提出一种基于LSTM和N-gram的k-最短路径模糊分词校对算法。该算法分为三个阶段:首先通过改进的模糊匹配算法,在词典中模糊匹配句子中的字串,获取可能的校对候选词集,构成词图;然后以Bigram概率作为词语间边的权重,求解词图的k条最短路径;最后采用Trigram和LSTM语言模型对k条句子重新排序,选择最优的一条句子作为最终校对结果。在SIGHAN2013数据集上,本算法的成绩超过了在相同数据集上测评的其它系统。2.中文语法错误校对。根据中文语法错误校对任务的特点,通过分析现有中文语法校对方法存在的问题,提出了一种基于语言模型和神经机器翻译的语法校对方法。该算法的核心是卷积序列到序列(Conv-seq2seq)模型。模型的训练过程中,通过正句-错句平行语料训练错句生成模型,人工构造错误句子,增加训练语料的规模。借鉴小语种翻译问题中效果显著的迁移学习方法,通过预训练的英语-汉语翻译模型的参数初始化语法校对模型,提升模型性能。在模型应用过程中,先将句子进行字词错误校对,再输入模型,最后将集束搜索的结果通过语言模型进行重新排序。该算法在NLPCC2018数据集上取得了超过其他校对系统的F0.5分值。3.采用轻量级web框架Flask作为主体,设计并实现了基于B/S架构的中文文本校对测试系统。系统包括知识获取模块、前端交互模块、预处理模块和自动校对模块四个部分,实现了中文文本的字词错误校对、语法错误校对、标点符号和数字校对等功能。