中文文本的词语纠错方法研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户：baolm

【摘要】

：

【作者】

：

张蕾

【出处】

：

江西财经大学

【发表日期】

：

2020年12期

【关键词】

：

拼写纠错语法纠错中文分词 N-gram BiLSTM-CRF

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当今世界,中国经济蓬勃发展、国际竞争力不断提高,汉语的语言魅力吸引了越来越多的外国学习者进行学习,本文针对外国学习者学习汉语这一主题展开中文文本纠错的探究。中文文本的词语纠错方法研究是确保学习者在学习和交流时准确性的重要探究,是预估文本中错误存在与否并选取正确纠错字的关键技术手段,是中文自然语言处理研究领域中的重要课题。本文旨在辅助学习者纠正其在学习过程中产生的错误,同时也为减轻汉语教师的辅导压力。中文文本纠错研究从利于模型构建的角度出发,将纠错任务分成两大类:中文拼写纠错和中文语法纠错,分别构建模型进行纠错。在经由一系列详实的调查,概括了文本拼写问题的形成因素和类别,在N-gram语言模型基础上采用基于字的N元切分文本并统计其概率,引入混淆集和动态规划提高模型纠错效率,并使用平滑技术应对数据稀疏问题,提出了结合中文分词、二元模型和三元模型的算法,构建了基于N-gram的中文拼写纠错组合模型。针对中文语法纠错,本文将语法问题分为四大类:用词冗余、缺少词语、用词错误、词序错误。针对传统的基于统计的N元语言模型无法应对邻接词未登录以及长距离语法错误的问题,本文采用神经语言模型双向长短期记忆网络(BiLSTM)来建模,通过双向上下文信息来评测句子正误,此外,又引入了条件随机场(CRF)进行序列标注,并在嵌入层加入词性特征与词向量相结合作为BiLSTM输入,构建了基于BiLSTM-CRF的中文语法纠错模型,进一步优化了模型的纠错性能。利用开发评测数据集进行的实验结果表明,本文提出的基于N-gram的中文拼写纠错组合模型和基于BiLSTM-CRF的中文语法纠错模型在各自针对的错误领域内都取得了良好的效果。

其他文献

银行系A保险公司银保业务营销策略研究

近年来,我国保险业高速发展,各大银行为扩大自己的业务范围、提高自己的盈利能力,相继控股保险公司,银行系保险公司应运而生。银行系保险公司借助关联银行强大的资源优势迅速

学位

银行系保险公司银保合作营销策略SWOT分析

表现型水墨的形式语言探究

表现型水墨是中国传统水墨向现代化转型过程中出现的一种独特的绘画风格,是借鉴西方表现主义绘画的艺术形式与精神并融合中国写意水墨的一种新型的艺术创作形式,其兴起于20世

学位

表现型水墨表现主义兴起艺术语言

六君子汤合金匮肾气丸化裁联合辅舒酮调治儿童哮喘慢性持续期脾肾气虚质的临床研究

目的:运用六君子汤合金匮肾气丸化裁联合辅舒酮调治儿童哮喘慢性持续期脾肾气虚质患儿,通过比较分析患儿治疗前后的中医体质转化积分、中医主症积分以及哮喘控制水平分级等,

学位

支气管哮喘慢性持续期中医体质临床观察

人用靶向防龋DNA疫苗防龋效果及交叉免疫保护的实验研究

期刊

防龋效果VAX变形链球菌牙本质浅龋链球菌感染DNA交叉免疫保护

非贵金属基电催化材料的设计、制备及其应用研究

寻找新型的可再生能源是解决化工生产过程中出现的资源与环境句题的重要方法之一,其中化学能和电能之间的相互转化为发展稳定、便携的可再生能源提供了新思路。电催化反应对

学位

非贵金属铜基材料钴基材料电催化剂

“一带一路”建设对人民币国际化的冲击研究

从各国金融机制冲突、沿线发展中国家汇率风险传导、沿线国家金融错配影响以及对外投资的周期风险四个角度,运用专业的金融知识,根据相关国家金融政策和当今的国际经济形势,

期刊

“一带一路”沿线国家人民币国际化

试论山西在古代中国的地位

山西简称晋,别称三晋、山右、河东。山西有文字记载的历史已达三千年,它人灵地杰,历史悠久,并且是中国的早期发祥地之一。山西被世人誉为"华夏文明摇篮",并且享有"中国古代文

期刊

山西表里山河地位晋商

中文文本的词语纠错方法研究

其他学术论文