纸质目录卡片的数字化转换及MapReduce并行处理

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:cardio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的到来,传统的文献检索方式越来越难以满足读者的需求,文献检索方式信息化的需求越来越迫切。文献检索方式信息化,需要将传统的纸质文献检索目录卡片转化为电子文档。对于纸质目录卡片电子化,很多单位还停留在人工输入的阶段,这不仅费时费力,而且还容易出错。在光采集设备和计算机设备日益普及的今天,各行各业在日常工作中越来越多的使用OCR技术将图像文字资料快速准确的转化为计算机文字。同时,针对大规模数据集,分布式系统是解决海量数据处理的有效途径之一。本文以传统的文献检索方式信息化需求为背景,主要研究怎么对传统的纸质目录卡片进行快速而有效的文字识别。目前,已有的OCR技术能够有效地识别常规的纸质材料。但是目录卡片包含多条分散在卡片上的信息,已有的OCR技术无法正常区分多条信息,甚至在遇到一些版面背景比较复杂的目录卡片时识别会出现错误。而且当目录卡片数量巨大时,如果使用单人单机的模式进行处理,处理速度肯定是不能满足需求的,所以需要一种更加快速的处理方式。针对以上问题,本文先是在分析了目录卡片的信息和版面特征之后,设计了一种目录卡片多元信息处理算法,通过文字区域提取、基于单词的坐标语句定位、基于语句坐标的语句属性确定和带预处理OCR识别这四个步骤,将纸质目录卡片里的多条属性信息分离并识别出来,方便了工作人员的后期整理和归档;然后使用MapReduce模型对目录卡片多元信息处理算法进行了并行化处理,使其可以快速有效地处理大规模数据集。实验结果表明,本文提出的目录卡片多元信息处理算法可以有效地提取出纸质目录卡片上的信息并对其进行分离,本文提出的基于MapReduce的并行目录卡片识别可以大大提高海量目录卡片的处理效率。本文的研究内容可以应用于实际,减轻文献管理人员的工作压力。
其他文献
当今数据挖掘技术快速发展,数据挖掘在很多领域中所起的重要作用己被越来越多的人认可,随着电信体制改革的深化,我国电信运营业的竞争日趋激烈,因此如何维持现有的客户不流失已经
随着信息技术的发展,作为一种重要的人机交互新手段,语音识别技术被广泛的应用于小型化、便携式的嵌入式语音产品中,带来了对低成本、低功耗的嵌入式语音识别系统的巨大需求。这
基于Voronoi图的路径规划方法计算复杂度高,安全性差,本文提出一种基于三角网追踪解决机器人路径规划的方法,通过三角网的值点追踪策略结合Dijkatra算法生成一条机器人最优路
服务组合已经成为Web服务研究领域的热点。在服务组合中潜在着诸多问题,如服务组合方法(即Web服务如何组合、能否自动组合),组合的正确性验证,Web服务间的协作、事务处理,以及服
由于网络技术的不断发展,实时数据(流媒体)的应用越来越广泛。它的传输显得格外重要。本文首先分析了新型的实时传输RTP/RTC协议,由于RTP/RTC协议自身的特点且具有一些用于服
随着信息化和网络化的发展以及电子商务应用步伐的加快,社会跨入了网络经济时代。而市场竞争规则、经济增长模式以及社会生活方式也都因此发生了相应的深刻变化。不甘落后的实
指纹绝对预对齐方法是指纹识别领域重要的研究内容,是提升大规模指纹库的平均匹配速度的重要手段。近年来,对大规模指纹库的自动指纹识别系统的需求越来越大,如何提高系统响
科学化的考试对学生的发展有许多积极作用,使用考试手段能够检测教育质量,规范和引导教师的教学行为,促进学生积极努力地学习,而且对培养学生分析问题、解决问题等综合素质能力可
随着计算机网络通信和电子商务的迅速发展,网络上信息传输的安全性已经引起社会的广泛关注,信息安全已经成为人类信息生活发展的重要保证,因此用户对于网络上信息传输的质量和安
在宽带码分多址接入(WCDMA)系统中,随着数据业务速率的不断提升,Iub接口越来越成为数据传输的瓶颈,怎样更高效地利用Iub传输资源成为业界研究的热点。过准入策略进而被提出。过