【摘 要】
:
本文采用自然语言处理技术,通过分析中文文本一般错误类型,并结合新闻领域文本的特征,确定研究范围为基于同音词替换产生的短距离错误和远距离错误。针对这两类错误,本文从这两种错误的错误检测和校正入手研究,本文进行了以下研究。本文提出了基于n-gram模型查错和纠错的方法;该方法分为两个阶段:首先通过2-gram和3-gram相结合模型进行查错,得到短距离错误集,然后利用3-gram模型进行纠错。最后使用
论文部分内容阅读
本文采用自然语言处理技术,通过分析中文文本一般错误类型,并结合新闻领域文本的特征,确定研究范围为基于同音词替换产生的短距离错误和远距离错误。针对这两类错误,本文从这两种错误的错误检测和校正入手研究,本文进行了以下研究。本文提出了基于n-gram模型查错和纠错的方法;该方法分为两个阶段:首先通过2-gram和3-gram相结合模型进行查错,得到短距离错误集,然后利用3-gram模型进行纠错。最后使用真实的测试文本进行测试,在短距离查错和纠错范围内得到查错召回率为83.1%,查错准确率为41.5%,F-score为55.4%,纠错率为78.1%,并且本文分别与2-gram模型和3-gram模型进行比较,查错准确率分别提高7.2%和8.2%,F-score分别提高6.3%和8.2%;在时间耗费方面优于2-gram模型,与3-gram模型相当。本文利用依存句法分析对整个句子进行语法分析,获取依存关系对,通过对依存关系对的进一步筛选,得到搭配知识库,能有效地检查出远距离错误;利用搭配知识库并结合互信息进行中文文本远距离错误纠错。最后使用真实的测试文本进行测试,在远距离查错和纠错范围内得到查错召回率为74.7%,查错准确率为35.3%,F-score为47.9%,纠错率为59.1%。通过与CPH方法进行比较,查错召回率提高10.5%,查错准确率提高9.8%,F-score提高11.4%,纠错率提高4.7%,在时间耗费方面,查错耗费和纠错耗费都优于CPH方法。在总体上分别与百度AI开放平台,云查错,JCJC错别字检测平台和Microsoft Word 2010进行比较,取得较好的结果,具有一定的研究价值和应用价值。
其他文献
随着大数据时代的到来,信息爆炸和信息过载的问题逐渐明显,搜索引擎只能返回与人们需求相关的一系列网页,已经无法满足用户需要。在此背景下,问答系统的提出弥补了搜索引擎的缺陷,问答系统让用户以自然语言的方式提出问题,紧接着系统返回给用户准确、简洁的答案。近年来越来越多的研究人员尝试使用深度学习的方法完成问答领域的关键任务,并得到了较好的效果。因此,基于深度学习的问答系统逐渐成为国内外研究中自然语言处理领
显著性区域检测已成为近年来重要研究课题之一,目的是使计算机模仿人类的视觉注意机制从复杂场景中提取出目标可能出现的区域,从而在后继处理环节中合理分配计算机资源,使资源被充分利用,提高运行效率。由于图像内容丰富复杂,高精度的检测出显著区域具有较高的挑战性。现有基于凸包提取显著区域的算法中往往在凸包内包含较多的背景噪声,算法结果准确性不够理想。为提高检测的准确度,本文提出三种基于凸包的显著性检测算法。第
自2014年京津冀协同发展上升为重大国家战略以来,北京、天津、河北逐渐打破“一亩三分地”固有思维,以实现创新驱动发展为共同目标,加强在科技人才引进上的交流与合作。当前,河北省的经济增长方式正在实现由过度依赖资源消耗向主要依靠科技创新和提高人力资源质量的根本性转变,河北在这一发展时期比以往任何时期都需要科技人才的支持。因此,河北省必须抓住京津冀协同发展的历史性机遇,在科技人才引进中,既要与北京、天津
碳纤维复合材料(CFRP)及钛合金是航空航天领域中广泛应用的材料,其中CFRP作为飞行器的结构材料常暴露在低温环境中,钛合金作为航空发动机的结构材料常面临高温工况。微动磨损
裂纹经常被认为是一种材料缺陷,研究者们总是试图通过各种方法阻止裂纹的产生。然而最近越来越多的学者发现裂纹并非只是缺陷,其还具有很多的应用。例如裂纹可以应用于纳米结
离散事件系统是一类拥有离散状态、由事件驱动的系统,其专注于系统的逻辑性和序列化行为。自上世纪90年代由Sampath等首次提出可诊断性形式化定义以来,离散事件系统的故障诊断问题得到国内外专家学者的广泛关注,相继被推广到由经典离散事件系统衍生的分布式离散事件系统、随机离散事件系统、模糊离散事件系统和赋时离散事件系统等多种不同类型的系统,且在军事国防、通讯网络、人工智能、自动化控制、生物医药等多个领域
生物质能储量丰富,是一种具有替代化石能源潜力的可再生能源。秸秆类农业废弃物是最常见的生物质能原料之一,但是其能量密度较低,导致其运输成本较高,所以压缩成型是其主要的前处理方式之一。但是不同类型生物质的特性差异较大,导致成型燃料的品质参差不齐。而且,现行的生物质成型工艺所需的温度(120-300℃)和压力(40-100 MPa)较高,使得成型能耗高。研究成型工艺参数对成型燃料品质的影响规律,优化成型
建筑行业蓬勃发展,如火如荼,从而也带来了一系列的法律问题,“以房抵款”就是其中的一个。如何正确对待“以房抵款”,不但法学界对此争论不休,法院裁判也是神仙打架。从目前的司法实践来看,代物清偿说、新债新偿说、债的更改说、流质契约说、让予担保说……都各有市场,因为受到学说流派的影响,导致法院出现了并不统一的裁判尺度,这也极大增加了了施工单位面对以房抵款的风险。针对以上种种现状,本文在绪论部分初步探讨了学
目的:2017年7月广东省全面取消药品加成政策,调查分析该政策对广东省各级公立中医医院运营的影响,全面了解掌握取消药品加成改革的现状与成效。针对全面实施取消药品加成政策后广东省公立中医医院在经济运营中凸显的问题,进一步提出推进以取消药品加成政策为切入点的公立医院改革纵深落实的建议措施。方法:文献研究法。以“取消药品加成”为主题词合并“实施现状”或“医疗改革”等为关键词,分别从中国知网CNKI、万方