【摘 要】
:
随着智慧检务工作的不断发展,纸质卷宗的电子化是检务信息化的重要环节,但受自动化识别技术的限制纸质卷宗电子化过程中不可避免的产生大量的识别错误,无法满足检察机关对电子卷宗准确性的要求,因此利用计算机辅助校对电子化后的文本具有非常重要的实际研究意义。本文面向OCR识别后的文本进行了自动校对技术的研究,首先分析了OCR技术电子化文本时错误的产生原因与其中所包含的错误类型,在此基础上针对文本中字词级别的错
论文部分内容阅读
随着智慧检务工作的不断发展,纸质卷宗的电子化是检务信息化的重要环节,但受自动化识别技术的限制纸质卷宗电子化过程中不可避免的产生大量的识别错误,无法满足检察机关对电子卷宗准确性的要求,因此利用计算机辅助校对电子化后的文本具有非常重要的实际研究意义。本文面向OCR识别后的文本进行了自动校对技术的研究,首先分析了OCR技术电子化文本时错误的产生原因与其中所包含的错误类型,在此基础上针对文本中字词级别的错误里“非多字词错误”和“真多字词错误”,展开了自动校对技术的研究,校对“非多字词错误”和“真多字词错误”时提出了两种不同的校对方法:(1)基于联合校对的自动校对方法:该方法将校对任务分为自动查错与自动纠错两个部分。在自动查错部分除将未登录词记为疑似错误外,通过将语言模型与窗口移动算法相结合计算字词串间的相关联程度,根据其关联程度得分计算置信度值,并根据相关联程度制定疑似错误判断规则进行自动查错。在自动纠错部分通过语料库与模糊匹配方法相结合选取候选词集,通过候选词集的置信度值与候选词和初始词的字词相似度相结合获得最佳建议词,完成自动纠错任务。(2)基于注意力机制与端到端序列模型的自动校对方法:该方法利用双向门控循环神经网络作为序列编码模型,利用门控循环网络作为序列解码模型,引入注意力机制对文本自动校对问题进行建模。利用具有记忆序列信息能力的门控循环神经网络与具有对不同的关注点有突出与其相关的关键信息能力的注意力机制构建端到端序列模型,完成待校对文本句子的校对工作。最后,通过实验验证了基于联合校对的自动校对方法,该方法的查错精度为81.3%,纠错准确率为79%。对基于注意力机制与端到端序列模型的自动校对方法进行了对比实验,实验结果表明注意力机制的引入提升了文本自动校对的准确率,验证了所建立模型的有效性。
其他文献
随着工业领域的高速发展,工业控制网络对网络通信的实时性、可靠性和确定性的要求越来越高。传统以太网已经无法满足诸如航天跟踪遥测、网络安全以及生命体征监视等服务对于网络实时性和可靠性的需求。相比于传统以太网,时间确定性网络(Time Deterministic Network,TDN)具备高可靠性、安全性和实时性等优点,能够满足航空、航天、轨道交通等安全关键系统大数据量传输的需求。而时间触发以太网(T
随着智慧城市、信息社会的建设和治安防控、打击犯罪的需求,越来越多的监控摄像头在各个场景、社区被投入使用。日益增多的摄像头同时产生了海量的视频数据,而且视频数据通常只能人工梳理,在面对大量视频数据场景下人工梳理方式代价高昂且效率低下。为了解决这个问题,本文针对行人检测、行人再识别任务进行研究,并设计实现了一套重点区域出入口人员分析系统,将非结构化的视频数据进行结构化处理,方便进行查询和梳理。首先,本
近年来,道路基础设施领域积累了相当数量的数据,如何对它们进行有效分析、让其价值得以体现,是当前迫切需要思考和解决的问题。道路对人们的日常生活有很大的影响,如果能尽早
目前,随着社会的进步,农村反贫困工作更加全面和复杂,不仅需要满足底层农民的最低生活保障,同时还要为贫困农民提供公平的条件和进入市场的资格。国家反贫困的保障兜底和共同富裕目标协同发展,其资金投放和扶贫方式逐年增加,但扶贫效果差强人意。作为农村反贫困最终实践主体的基层政府,在贫困户的瞄准上具有决定性因素,同时还在上级政府、市场和贫困户中起着带头和黏合作用。基于此,研究基层政府在农村反贫困中的行动逻辑显
智能电表集成了电能计量、数据采集、远程费控等功能模块,具有操作简便、功能多样的优点,但同时由于其功能日益丰富、结构日益复杂导致其故障类型变得多样化。智能电表故障类型的准确判断,有助于指导运维人员制定合理的维护措施,减少故障维护时间,从而提高用电采集系统的稳定性并降低运维成本。基于机器学习的分类方法是解决智能电表故障多分类问题的一种有效途径。而现有智能电表故障样本数据呈现出不平衡的特点,实质是一个类
电压门控氯离子通道蛋白(voltage-gated chloride channel,Cl C)属于氯离子通道蛋白中的一个大家族,普遍存在于真核与原核生物中,主要位于各类细胞的细胞质膜或器膜上,可调控不同的生理过程和细胞功能。氯离子通道蛋白2(Chloride channel protein 2,Cl C-2)是电压门控氯离子通道家族的一员。迄今为止,虽然对Cl C-2基因和蛋白质分子结构的研究取