中文文本校对关键技术研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:champhorse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微型计算机技术的发展,信息产生的速度飞速增长。传统文本工作基本上全部在计算机上进行。然而只要涉及到文本的领域,就难免存在文本错误的问题。传统人工校对的方式很难满足日益增加的文本校对需求,人们迫切的需要一种高速、可靠的自动文本校对技术。中文文本自动校对技术可以帮助人们校对各个领域中遇到的文本错误,包括政府、媒体发布的公告、新闻和学者投稿的学术论文、研究报告等文本资料,在文字识别和语音识别等其他自然语言处理任务上,也能发挥巨大的作用。综上,研究自动文本校对具有广泛的应用领域和实用价值。在深入调研了国内外文本校对相关研究的基础上,本文进行了以下三方面的研究:1.中文字词错误校对。在分析了前人研究的相关算法优缺点的基础上,提出一种基于LSTM和N-gram的k-最短路径模糊分词校对算法。该算法分为三个阶段:首先通过改进的模糊匹配算法,在词典中模糊匹配句子中的字串,获取可能的校对候选词集,构成词图;然后以Bigram概率作为词语间边的权重,求解词图的k条最短路径;最后采用Trigram和LSTM语言模型对k条句子重新排序,选择最优的一条句子作为最终校对结果。在SIGHAN2013数据集上,本算法的成绩超过了在相同数据集上测评的其它系统。2.中文语法错误校对。根据中文语法错误校对任务的特点,通过分析现有中文语法校对方法存在的问题,提出了一种基于语言模型和神经机器翻译的语法校对方法。该算法的核心是卷积序列到序列(Conv-seq2seq)模型。模型的训练过程中,通过正句-错句平行语料训练错句生成模型,人工构造错误句子,增加训练语料的规模。借鉴小语种翻译问题中效果显著的迁移学习方法,通过预训练的英语-汉语翻译模型的参数初始化语法校对模型,提升模型性能。在模型应用过程中,先将句子进行字词错误校对,再输入模型,最后将集束搜索的结果通过语言模型进行重新排序。该算法在NLPCC2018数据集上取得了超过其他校对系统的F0.5分值。3.采用轻量级web框架Flask作为主体,设计并实现了基于B/S架构的中文文本校对测试系统。系统包括知识获取模块、前端交互模块、预处理模块和自动校对模块四个部分,实现了中文文本的字词错误校对、语法错误校对、标点符号和数字校对等功能。
其他文献
本文对于"国学"的定义作了历史性的梳理,通过对其历史流变的归纳和分析,认为我们应该对其持实事求是、一分为二的态度,这样才有利于我们建设转型期的社会主义新文化。
改革开放以来,流入到机电行业的外资不断增加,对机电产品出口的影响也越来越大。文章利用贸易竞争力指数和显示性比较优势指数分析了江苏省机电产品出口竞争力,并采用回归分
随着高校改革的步伐加快,高校教师尤其是农林类高校的教师绩效管理在思路和方法上都需要改革和创新。文章通过对心理契约理论的研究,将其应用在农林类高校教师绩效管理上面,
本文从女性主义角度出发,运用当代女性主义批评理论,解读康拉德中篇小说《黑暗的心》。通过分析马洛话语下的女性形象,在父权思想占统治地位的社会,女性只能作为男性的附庸,
随着利率市场化进程的加快推进,银行传统利差不断收窄。以传统存贷利差作为收入主要来源的农合机构,亟须推进盈利模式转型。文章以苍南农商银行为例,通过分析利率市场化对该
原生态歌唱是藏族传统音乐的主要组成部分。甘南藏族地区原生态歌唱艺术源远流长,经过历代藏族人民的不断丰富和发展,逐渐形成了自己的特色。研究甘南藏族地区原生态歌唱艺术
文章通过对山西省忻州金古源粮油有限公司人力资源管理的分析研究,提出了我国中小企业在人力资源管理中存在问题,针对存在的问题提出了改进措施。
为了对瓦斯发电机组所排烟气热量有效利用,提高能源的利用效率,分析了某瓦斯发电机组废气余热再利用的可行性,对余热工艺进行了介绍,并对余热蒸汽在向某矿输送的过程中的品质
  基于能源消费的基本等式,采用改进的LMDI能源预测模型,建立江苏省能源消费的因素分解模型,依据江苏统计年鉴2009提供的数据,定量分析了2002-2008年间,能源效率、产业结构和经
本文以广州地铁站内公示语翻译的存在问题为例,分析公示语的英译现状,并提出自己的建议。