版式图书文档页面元素的提取与识别

来源 :北京大学 | 被引量 : 0次 | 上传用户:abc258qq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数字图书馆建设中,人们面临着一个问题:如何高效地将现有的海量的纸质文档或者电子文档制作为可供计算机阅读、检索、查询、传播等操作的电子出版物。对于电子出版物,其所含有的逻辑信息(如标题、作者、页码索引、章节段落的层次构成等)对读者的阅读理解、查询检索起着重要的作用。然而,就目前已有的文档电子出版物制作系统而言,逻辑信息提取的自动化程度还远不尽如人意,仍然需要较多的人力建立索引或做结构化的逻辑元素标注。因而,采用相关的文档分析和理解技术来实现自动的文档逻辑信息的提取,是提高出版物制作系统自动化性能一个关键的方向。本文即是以电子出版物的一种重要文档来源---版式图书文档为研究对象,研究其页面级逻辑信息即版面逻辑元素的自动提取技术。   本文所完成的工作包括:对版式文档页面上的文字内容进行段落划分,并且对段落划分所得的结果,按照其在文档中的逻辑含义进行分类和识别。已有的文档逻辑信息抽取方法主要针对特定类型的文档,依赖特定的版面布局规则难以适应布局样式多变的电子书文档。本文根据版式文档和图书文档的特点,结合已有的针对扫描图像的文档分析技术,提出了一个对版式文档页面自动实现段落划分的方法。并且在此基础之上,提出了一个使用支持向量机模型自动提取标题、脚注、页码等具有特别语义的页面元素的方法。该方法可以通过增加特征分量,进一步支持更多的页面元素类型。   最后本文开发实现了所提出方法的原型系统,并且在包含多种布局样式的电子书文档集上进行了实验,在段落划分和页面元素的识别上,均取得了较高的准确率和召回率。尤其在标题和页眉页脚的自动提取上,分别达到了86%和93%以上的准确率。
其他文献
现代流程工业产生了大量与生产状态相关的过程数据,其庞大的规模凸显了传统数据分析方法运算复杂度过高、分析规模受限的不足。同时,流程工业生产过程中所包含的一些复杂性,如传
随着Internet技术飞速发展,各种信息能在网络上方便、快捷地传输。多媒体比纯文本含有更多的信息量,是人们获取和保存信息的重要手段。因为视觉信息在所有感官获取信息总量中占
离散属性数据是数据挖掘中的一类重要数据,而非监督学习,是数据挖掘采用的一类关键方法。本文针对多种类型的离散数据,包括文本数据,时序离散序列数据和多维离散数据,研究若干新的
随着互联网及其相关技术的发展,多域环境下的资源共享越来越普遍。域间的资源共享给域间合作带来了便利的同时也带来了安全问题。其中两个关键安全问题是跨域访问控制和跨域信
随着手机、掌上电脑和PDA等移动设备的普及和移动通讯技术的高度发展,越来越多的人开始利用移动设备实现无线上网。使用移动设备,通过无线上网的方式,进行的商品拍卖活动称为移
外包数据库是一种新的数据库应用形态,它在管理成本、数据库可用性与可靠性等诸多方面具有传统数据库应用形态无法比拟的优势。由于信任模型发生了本质性转变,外包数据库带来了
随着互联网视频内容的不断增加,以及数字图书馆、视频点播、远程教学等大量视频媒体的应用,如何在海量视频中检索出所需要的资料显得至关重要。传统的基于文本的视频检索以及基
为了评估信用风险,研究人员做出了大量的努力,提出了各种度量和管理信用风险的方法。经典的评估模型一般将着眼点放在被评估公司自身的信息上,然而银行界获得的越来越多的共识是
随着网络技术的飞速发展和嵌入式处理器能力的不断提升,基于嵌入式Linux的网络视频监控系统逐渐成为了监控设备中的主流,因为嵌入式Linux功能强大且费用较低。但是直接移植Linu
由于如今Web应用的高速发展所带来的数据规模的海量性、数据模式的多样性和不确定性,使得传统的数据管理技术在可扩展性、高效性和可靠性方面越来越不能满足应用的需求。数据