面向PDF文档的论文元数据提取方法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:hongdou0219
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在以互联网上的开放存取OA(Open Access)期刊论文为信息源创建数字资源库时,如何根据OA期刊论文的PDF文档,快速、高质量地提取论文的元数据是实现数字资源库自动生成的关键。利用元数据对数字资源库中的OA期刊论文进行组织和管理,可以提高论文检索的准确性和快捷性。因此,元数据的自动提取是当前图书馆数字资源建设中的热点研究问题。本文在前人研究的基础上,提出了两种论文元数据混合提取策略,并对它们的提取性能进行了分析和验证。首先,针对现有的元数据提取方法提取精度不高且适应能力较差的问题,在HMM、SVM和CRF三种统计学习方法的基础上,提出一种论文元数据混合提取方法。先将PDF格式论文转换为TXT文本格式,并针对TXT格式和HMM、SVM和CRF的特点,选取相应的特征,借助数据集对三种方法进行训练和验证;然后根据验证结果,统计三种方法提取各单项元数据的精度值,采用最大值规则判决出每种方法要提取的元数据,生成混合提取模型;最后采用基于时间段统计机制动态更新混合提取模型,以确保模型的有效性。其次,在此基础上,根据每种统计学习方法提取论文元数据产生的后验概率,采用和规则实现度量级融合。先根据贝叶斯判决理论推导出和规则,并利用和规则对已训练好的HMM模型、SVM模型和CRF模型产生的后验概率进行融合决策,实现论文元数据的提取;最后通过设定时间段和文档数阈值,定期更新三种提取模型。最后,利用在线抓取的PDF格式论文,对本文提出的两种元数据提取方法性能进行分析和验证;同时,根据论文分组数设置时间段,对两种混合提取方法的适应性进行分析和验证。
其他文献
家具设计是一个很复杂的设计门类,对于中式家具而言,更是融合了风水、哲学、艺术等方面的知识。当今社会,中国传统文化所蕴含的精神已经日渐成为现代中国家具设计理念的核心,新中
据Gartner调查发现,在经常出现的IT系统问题中,源自技术或产品方面的问题占20%,而流程失误和人员疏失各占40%。正如我们通常所说的,做好IT工作,三分靠技术,七分靠管理。那么,企业应该
设备控制技术课程是高职院校机械制造、数控设备应用与维护、机电一体化等专业的专业必修课,是一门实践性和实用性都非常强的课程。为了更好的让学生学习这门课程的理论知识和
<正>近期,有关媒体报道了广东省"基因编辑婴儿事件"调查组有关调查进展情况。该事件严重违反国家法律法规和伦理准则。国家卫生健康委重申,科学研究和应用活动应当本着高度负
[作文题]  阅读下面的材料,根据要求写作:  ①韩愈《师说》一文对老师的定义是:“师者,所以传道受业解惑也”。  ②我国古代著名的大教育家孔子曾经对在课堂上睡觉的宰予破口大骂:“朽木不可雕也,粪土之墙不可圬也。”宰予后来成为“孔门十哲”之一,名闻天下。  ③德隆望尊的先达对不合时宜地提出问题的宋濂予以“叱咄”,宋濂后来成为明代著名文学家。  ④西部某地区一个小学生不接受批评,对老师发怒,开始拳脚
近年来在人工智能领域极具突出研究价值的是数据挖掘技术。数据挖掘技术就是从大量的无规则的数据中提取出潜在的人们感兴趣的知识。提取出的知识表现形式可以为概念、规则、
目的探讨糖尿病患者血清腺苷脱氨酶活性的变化与糖化血红蛋白的相关性,了解与糖尿病并发症的关系。方法健康对照组50例,糖尿病组45例,糖尿病急、慢性并发症组各80例,均清晨空
机电管理是综合性的人与物的管理,是煤矿重要管理体系之一,是煤炭企业提高经济效益的重要条件。近年来,煤矿的机械化程度不断提高,由于煤矿生产条件和生产环节的复杂性,机电设备的
近年来,鉴于中国社会经济及科技的持续前进,航空技术也飞速地发展着。航空技术的发展不仅有效地促进了我国航空事业的发展,同时也为国民生活质量及水平的提升带来了许多便利。本