论文部分内容阅读
在以互联网上的开放存取OA(Open Access)期刊论文为信息源创建数字资源库时,如何根据OA期刊论文的PDF文档,快速、高质量地提取论文的元数据是实现数字资源库自动生成的关键。利用元数据对数字资源库中的OA期刊论文进行组织和管理,可以提高论文检索的准确性和快捷性。因此,元数据的自动提取是当前图书馆数字资源建设中的热点研究问题。本文在前人研究的基础上,提出了两种论文元数据混合提取策略,并对它们的提取性能进行了分析和验证。首先,针对现有的元数据提取方法提取精度不高且适应能力较差的问题,在HMM、SVM和CRF三种统计学习方法的基础上,提出一种论文元数据混合提取方法。先将PDF格式论文转换为TXT文本格式,并针对TXT格式和HMM、SVM和CRF的特点,选取相应的特征,借助数据集对三种方法进行训练和验证;然后根据验证结果,统计三种方法提取各单项元数据的精度值,采用最大值规则判决出每种方法要提取的元数据,生成混合提取模型;最后采用基于时间段统计机制动态更新混合提取模型,以确保模型的有效性。其次,在此基础上,根据每种统计学习方法提取论文元数据产生的后验概率,采用和规则实现度量级融合。先根据贝叶斯判决理论推导出和规则,并利用和规则对已训练好的HMM模型、SVM模型和CRF模型产生的后验概率进行融合决策,实现论文元数据的提取;最后通过设定时间段和文档数阈值,定期更新三种提取模型。最后,利用在线抓取的PDF格式论文,对本文提出的两种元数据提取方法性能进行分析和验证;同时,根据论文分组数设置时间段,对两种混合提取方法的适应性进行分析和验证。