基于多序列对齐和统计语言模型的多中文地址识别结果融合

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:nishi1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几十年间,邮件自动分拣系统已经在中国得到广泛的应用,其中分拣技术已经从基于邮编识别发展到基于地址识别。然而,使用识别器对邮件上地址进行识别是很容易发生错误,尤其当图像的分辨率偏低或者包含很多噪声的情况下更容易发生识别错误。总的来说,识别结果的错误可以分为三类:1)字符分割正确,但是识别器在识别单个字符时发生错误;2)字符分割错误导致识别结果错误;3)由于中文汉字和数字字符之间的混淆识别,导致错误的输出结果。不同的识别器在对同一邮件上的地址进行识别时往往会发生不同的识别错误。在本文中,我们提出了一种融合不同识别器的中文地址识别结果来提高中文地址的识别整体正确率的方法。该方法可以分为三步:1)使用基于改进最小编辑距离的动态规划方法,对多个识别器输出结果进行成对对齐,然后将成对对齐序列拓展成多序列的对齐;2)根据对齐的多中文地址序列生成候选假设链路;3)使用改进的统计语言模型计算候选假设的概率值,并使用Viterbi算法选择具有最大概率值的一条路径。我们使用两个数据集来对本文的方法进行测试,其中数据集的图像都采集自实际中的自动分拣机。测试集SRI1由1651封邮件图像组成,并且已经手动将地址块进行分割,我们使用该测试集进行单字符识别正确率的测试。测试集SRI2由3071封图像组成,并且未进行任何处理,我们使用该测试集在自动分拣机上进行道段分拣测试,以测试整体识别地址结果的整体正确性。实验结果表明本文提出的方法大大优于单个识别器和Miyao提出的方法。
其他文献
针对落地式导轨磨床和一些自制专用磨床无法安装或安装、使用砂轮修正器较困难的情况 ,设计了一种用双联磁性表座为底座的砂轮修正器 ;安装灵活、可靠 ,操作方便 ,使用范围广
本文主要对进口奶粉与国产奶粉进行了对比探究,首先研究了国内奶粉在各线城市的消费状况,以及消费者倾向,研究发现一线城市为主要消费市场,且消费者倾向于含有活性益生菌、温
随着我国人民生活水平和消费水平的提升,很多家庭对孩子教育投资加大了力度,再加上留学政策逐渐放宽以及我国不断出台的鼓励中学生、大学生留学和归国的有利政策,中国留学生
本文以"人体的免疫功能"为例,从教材分析、教学环节、教学反思等方面探索思考,大胆地对教材内容进行整编、研究,设计了基于学生自主学习、小组合作探究学习模式下的探究活动,
研究目的:从循证医学的角度客观评价补肾调周合化瘀消癥疗法治疗子宫内膜异位症相关痛经的临床疗效和安全性,为今后临床进一步深入研究并推广该疗法提供依据,也为子宫内膜异
地下综合管廊的出现解决了传统地下管道存在的问题,拥有集约化管理,使用寿命长,减少道路的反复开挖等优点。地下综合管廊的投融资模式多样化,主要有政府全权投资模式、政企合
海上通信设备如今越来越多,信息近乎爆炸性的增长也导致了各参战系统间的信息流量猛增。基于这种趋势,通信质量的提升是现代海战应时代要求而不得不做的工作。而在舰载通信系
海运是粮食物流不可或缺的一部分,我国“北粮南运”主要采用铁路和海运两种运输方式。由于山海关铁路通行能力有限,在旺季常常出现运力不足的局面,可能还会产生铁路附加费,进
在反相乳液中进行淀粉与丙烯酰胺的接枝共聚反应,反应体系中加入Fe(EDTA)2-,该络合物与过硫酸铵(APS)形成氧化还原引发体系,Fe (EDTA)2-被氧化成Fe(EDTA)-, Fe(EDTA)-对接枝
以小陇山山麓耕地培育的4年生人工油松(Pinus tabulaeformis Carr.)苗为对象,通过逐步回归方法,分析了油松苗生长与表层土壤养分之间的相关关系,为科学管理小陇山油松人工林提