论文部分内容阅读
在数字图书馆建设中,人们面临着一个问题:如何高效地将现有的海量的纸质文档或者电子文档制作为可供计算机阅读、检索、查询、传播等操作的电子出版物。对于电子出版物,其所含有的逻辑信息(如标题、作者、页码索引、章节段落的层次构成等)对读者的阅读理解、查询检索起着重要的作用。然而,就目前已有的文档电子出版物制作系统而言,逻辑信息提取的自动化程度还远不尽如人意,仍然需要较多的人力建立索引或做结构化的逻辑元素标注。因而,采用相关的文档分析和理解技术来实现自动的文档逻辑信息的提取,是提高出版物制作系统自动化性能一个关键的方向。本文即是以电子出版物的一种重要文档来源---版式图书文档为研究对象,研究其页面级逻辑信息即版面逻辑元素的自动提取技术。
本文所完成的工作包括:对版式文档页面上的文字内容进行段落划分,并且对段落划分所得的结果,按照其在文档中的逻辑含义进行分类和识别。已有的文档逻辑信息抽取方法主要针对特定类型的文档,依赖特定的版面布局规则难以适应布局样式多变的电子书文档。本文根据版式文档和图书文档的特点,结合已有的针对扫描图像的文档分析技术,提出了一个对版式文档页面自动实现段落划分的方法。并且在此基础之上,提出了一个使用支持向量机模型自动提取标题、脚注、页码等具有特别语义的页面元素的方法。该方法可以通过增加特征分量,进一步支持更多的页面元素类型。
最后本文开发实现了所提出方法的原型系统,并且在包含多种布局样式的电子书文档集上进行了实验,在段落划分和页面元素的识别上,均取得了较高的准确率和召回率。尤其在标题和页眉页脚的自动提取上,分别达到了86%和93%以上的准确率。