科技成果的自动提取与融合

被引量 : 0次 | 上传用户:bell0521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从Web页面中抽取出学术成果信息并加以融合,能够帮助实现学术成果的科学管理,同时能够为专家学术轨迹的深入挖掘提供重要的基础资源。现有的信息抽取系统对Web页面结构的频繁变化的适应性较低,同时由于资源规模巨大,信息存在高冗余度、低可信度、描述方式不一致等问题,导致结果的准确性难以得到保证。因此本论文面向专家科技成果信息,重点聚焦Web信息融合中的抽取和去重两项关键技术进行研究。虽然目前存在多种Web信息抽取方式,但它们要么强烈依赖于抽取模板,要么对网页结构的变化有严格要求,针对此问题,本论文提出一种基于空间连接和DOM相结合的Web信息抽取算法(Spatial Relation Based DOM,简称SRB-DOM),实现从Web页面中抽取出成果信息。该方法将DOM树中的各个元素节点映射成二维空间中的对象,利用矩形代数中的相关理论得到各个对象之间空间关系的描述,利用元素节点之间的空间关系,抽取出成果信息的元数据,然后根据最大无连接边界元组构建完整的成果记录,最终实现成果信息的抽取。分析与模拟实验结果表明,该方法在对页面结构变化的适应性方面远优于现有的基于路径的信息抽取算法。信息源的多样性和描述方式的不同导致存在大量相似或重复的抽取结果,因此在对成果信息作进一步的融合与挖掘之前,必须对其进行一定的清洗工作。本文利用熵增度量成果记录中各个数据项的重要性程度,依此对各数据项分配权值,完成成果记录间相似度的计算,实现对成果的分类。在此之后,论文提出了一种基于数据标准化的成果记录完整化算法(Data Standardization Based Record Combine,简称DSBRC),该算法首先对成果记录进行基于特征的描述标准化,然后据此对每条成果记录的数据状态进行标注,得到数据状态矩阵,根据该矩阵得到成果记录的完整描述信息。分析与实验结果表明,该算法在结果的准确度和完整度方面由于其他同类算法。Web信息抽取适应页面结构变化的能力对系统的实用性有很重要的影响,所以应当尽可能提高信息抽取系统对页面结构变化的适应性。使用本论文提出的SRB-DOM算法实现信息抽取,完全消除了对路径的依赖,与传统的基于路径的抽取方法相比,适应性得到了很大的提高。论文提出的基于熵增分类能够提高成果记录的分类准确度,而DSBRC算法能够有效提高成果记录合并的完整度与准确度,这对接下来数据的深入挖掘与知识发现有重要的研究价值。
其他文献
以往关于动物警戒行为的研究多以经典随机独立模型为基础,然而,近期一些理论和实证研究则向该模型发出了挑战。根据警戒行为同步性程度的不同,集体警戒可能存在基于模仿的同
目的了解重庆地区手足口病流行病学、病原学特征及其变迁,为该病进一步的防治工作及疫苗的研发提供依据。方法采用描述性流行病学方法对2010-2013年4年间重庆医科大学附属儿童
目的:动脉粥样硬化(atherosclerosis,As)是脂质代谢异常导致的动脉血管壁的慢性炎症性疾病,是冠心病、心肌梗死、高血压等心血管疾病共同的病理基础。冠心II号由已故的著名中
目的研究IgA肾病临床与病理改变及其相关性,为进一步探讨IgA肾病的发病机制、指导诊疗及判断预后提供依据。方法查阅2008年5月至2013年4月在中南大学湘雅二医院肾内科住院经
林权登记发证工作是一项重要的工作.林权登记发证工作,是维护农村林地承包政策长期稳定的核心工作,是集体林权制度改革的重要内容,是依法治林、加强森林资源保护管理的有力手
摘要:目前,在工业领域,尤其是在航空航天等国防高科技领域中已大量应用了合金材料。在合金材料的铸造过程中施加超声波,可以达到除气、使合金晶粒细化、合金化学成分均匀化的
[目的]建立桃仁配方颗粒中苦杏仁苷的含量测定方法。[方法]采用HPLC法,色谱柱为Hypersil ODS柱(250 mm×4.6 mm,5μm),以甲醇-水(17︰83)为流动相,检测波长为210 nm,流速1.0 ml
从《圣经》中说世界是上帝创造的,而在这些创造中,人是它的最伟大成就,其他创造都是为了人的到托勒密"地心说"在本体论上使用"人类中心主义"、康德的"人的理性为万物立法"到
摘要:《普通高中英语课程标准》指出:掌握语言技能是语言学习的主要目的,语言技能是构成语言交际能力的重要组成部分。近十年来,随着“基于标准”的基础教育英语课程改革的推进
美刊《每月评论》2007年2月号刊登了约翰.贝拉米.福斯特题为《生态的破坏》的文章,认为资本主义本质上具有的失控性正将自然界推向毁灭的境地,作者引用了很多环境研究著作证