面向PDF文档的论文元数据提取方法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户：hongdou0219

【摘要】

：

在以互联网上的开放存取OA(Open Access)期刊论文为信息源创建数字资源库时，如何根据OA期刊论文的PDF文档，快速、高质量地提取论文的元数据是实现数字资源库自动生成的关键。利

【作者】

：

刘华中

【出处】

：

燕山大学

【发表日期】

：

2012年期

【关键词】

：

元数据提取统计学习最大值规则度量级融合后验概率和规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在以互联网上的开放存取OA(Open Access)期刊论文为信息源创建数字资源库时，如何根据OA期刊论文的PDF文档，快速、高质量地提取论文的元数据是实现数字资源库自动生成的关键。利用元数据对数字资源库中的OA期刊论文进行组织和管理，可以提高论文检索的准确性和快捷性。因此，元数据的自动提取是当前图书馆数字资源建设中的热点研究问题。本文在前人研究的基础上，提出了两种论文元数据混合提取策略，并对它们的提取性能进行了分析和验证。首先，针对现有的元数据提取方法提取精度不高且适应能力较差的问题，在HMM、SVM和CRF三种统计学习方法的基础上，提出一种论文元数据混合提取方法。先将PDF格式论文转换为TXT文本格式，并针对TXT格式和HMM、SVM和CRF的特点，选取相应的特征，借助数据集对三种方法进行训练和验证；然后根据验证结果，统计三种方法提取各单项元数据的精度值，采用最大值规则判决出每种方法要提取的元数据，生成混合提取模型；最后采用基于时间段统计机制动态更新混合提取模型，以确保模型的有效性。其次，在此基础上，根据每种统计学习方法提取论文元数据产生的后验概率，采用和规则实现度量级融合。先根据贝叶斯判决理论推导出和规则，并利用和规则对已训练好的HMM模型、SVM模型和CRF模型产生的后验概率进行融合决策，实现论文元数据的提取；最后通过设定时间段和文档数阈值，定期更新三种提取模型。最后，利用在线抓取的PDF格式论文，对本文提出的两种元数据提取方法性能进行分析和验证；同时，根据论文分组数设置时间段，对两种混合提取方法的适应性进行分析和验证。

其他文献

论新中式家具的发展

家具设计是一个很复杂的设计门类，对于中式家具而言，更是融合了风水、哲学、艺术等方面的知识。当今社会，中国传统文化所蕴含的精神已经日渐成为现代中国家具设计理念的核心，新中

期刊

中式风格新中式风格现代工艺家具

业务服务管理的概念与实践

据Gartner调查发现，在经常出现的IT系统问题中，源自技术或产品方面的问题占20％，而流程失误和人员疏失各占40％。正如我们通常所说的，做好IT工作，三分靠技术，七分靠管理。那么，企业应该

期刊

业务服务管理上海浦东发展银行最佳实践BSM

《设备控制技术》课程教学模式改革

设备控制技术课程是高职院校机械制造、数控设备应用与维护、机电一体化等专业的专业必修课，是一门实践性和实用性都非常强的课程。为了更好的让学生学习这门课程的理论知识和

期刊

设备控制技术项目教学课程改革

国家卫生健康委关于“基因编辑婴儿事件”调查结果的回应

<正>近期,有关媒体报道了广东省"基因编辑婴儿事件"调查组有关调查进展情况。该事件严重违反国家法律法规和伦理准则。国家卫生健康委重申,科学研究和应用活动应当本着高度负

期刊

基因编辑伦理准则处置工作广东省研究和应用卫生健康

“教师”讲评

[作文题]　　阅读下面的材料，根据要求写作：　　①韩愈《师说》一文对老师的定义是：“师者，所以传道受业解惑也”。　　②我国古代著名的大教育家孔子曾经对在课堂上睡觉的宰予破口大骂：“朽木不可雕也，粪土之墙不可圬也。”宰予后来成为“孔门十哲”之一，名闻天下。　　③德隆望尊的先达对不合时宜地提出问题的宋濂予以“叱咄”，宋濂后来成为明代著名文学家。　　④西部某地区一个小学生不接受批评，对老师发怒，开始拳脚

期刊

寿镜吾粪土之墙孔门十哲

基于改进型数据挖掘模型的研究

近年来在人工智能领域极具突出研究价值的是数据挖掘技术。数据挖掘技术就是从大量的无规则的数据中提取出潜在的人们感兴趣的知识。提取出的知识表现形式可以为概念、规则、

期刊

数据挖掘关联规则遗传算法

从第一二次国共合作看第三次国共合作

争取台湾统一于祖国,实现第三次国共合作,是我国新时期三大任务之一.在中国现代史上,国共两党曾有过两次合作,共同为捍卫祖国独立和民族团结,作出了重大贡献.为了振兴中华,完

期刊

国共合作国共两党合作国民党祖国统一统一祖国共产国际第三国际帝国主义思想体系台湾当局

血清腺苷脱氨酶与糖尿病并发症的相关性研究

目的探讨糖尿病患者血清腺苷脱氨酶活性的变化与糖化血红蛋白的相关性,了解与糖尿病并发症的关系。方法健康对照组50例,糖尿病组45例,糖尿病急、慢性并发症组各80例,均清晨空

期刊

糖尿病腺苷脱氨酶糖化血红蛋白糖尿病并发症

煤矿机电设备管理与维护的思考

机电管理是综合性的人与物的管理，是煤矿重要管理体系之一，是煤炭企业提高经济效益的重要条件。近年来，煤矿的机械化程度不断提高，由于煤矿生产条件和生产环节的复杂性，机电设备的

期刊

机电设备管理信息化建设

浅谈航空技术的发展方向

近年来，鉴于中国社会经济及科技的持续前进，航空技术也飞速地发展着。航空技术的发展不仅有效地促进了我国航空事业的发展，同时也为国民生活质量及水平的提升带来了许多便利。本

期刊

航空技术发展方向举措

面向PDF文档的论文元数据提取方法研究

其他学术论文