基于路径摘要的链接信息提取系统的研究与设计

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:wangxiaomax
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,大量信息在互联网上传播。对于那些感兴趣的有价值的信息,人们除了浏览外,还更希望能够收集并存储起来。针对这样的需求,Web信息提取这一研究领域应运而生。Web信息提取系统是一类以从Web源文件中提取数据为目的的软件应用。Web信息提取系统通常与Web源文件进行交互,提取存储在文件中的数据,例如:若源文件是HTML页面,则提取的内容可以是由页面中的元素组成也可以是页面自身的全部文本。最终,数据的提取往往通过后处理来完成,数据被转换成最方便使用的结构化格式,并存储以便进行进一步的使用。链接信息页面的提取是Web信息提取的一类重要的应用场景。所谓链接信息指的就是(标题,链接)二元组,而链接信息页面则指的是用来集中展示同类链接信息的页面。链接信息页面在互联网上极为常见,但凡需要涉及到大量信息发布的网站,例如新闻网站、网络社区、电影信息网站、垂直信息发布网站等,都会用链接信息页面对信息详情页进行目录索引。人们对于这类网站信息的收集需求一直以来都广泛存在,而链接信息页面的提取技术则是解决这一需求的关键。传统的基于正则表达式的链接提取方法,需要有专业知识的工作人员参与,且提取过程效率低下,成为生产力的瓶颈。本文将页面的链接信息提取问题抽象成了页面的同质信息提取问题。并利用了“Web页面编写时会将具有相同意义的信息赋予相同的结构样式”这一设计习惯,借助路径摘要以及路径节点名序列两个概念,提出了一种利用结构样式反过来定位信息的信息提取方法,并基于此方法提出了一个同质信息提取问题的解决框架。随后我们从抽象问题回归到具体问题,将这种新的方法方法与链接信息页面的提取这一具体场景相结合,设计并实现了一种全新的链接信息提取系统。该系统采用了人工提取与机器提取相结合的设计,从而兼顾了信息提取的自动化程度与提取的准确度。其中人工提取部分提供了可视化人工提取器,该提取器将复杂的提取流程抽象成了一次鼠标点击的操作,具有极低的学习成本和极高的操作效率。而机器提取部分则在该方法框架下,通过对路径摘要节点进行向量化表示,实现了信息提取问题到机器学习二分类问题的转化,使得系统能够完成自动的规则抽取。在具体实现中,我们设计并使用一组特征对路径摘要树节点进行了向量化表示,并利用随机森林模型作为分类器,实现了自动化的链接信息提取。在链接提取这一场景下,我们设计的系统具有极低的学习成本、高效的人工提取效率以及良好的机器提取效果,在准确度与自动化程度之间达到了良好的平衡,能够显著提高链接信息提取这一环节的生产力。
其他文献
视觉目标跟踪作为计算机视觉领域的一项热门研究课题,在视频语义分析、人机交互等很多现实场合中具有广泛的应用。近年来,尽管研究人员已经提出了很多跟踪算法,但由于目标容
随着我国改革开发的不断推进,社会经济发展迅猛,作为经济发展基石的金融行业也得到了快速发展。银行是主导金融行业改革的主要动力之一,在发展过程中银行与银行之间的竞争力
羟基磷灰石(HAp)作为脊椎动物骨骼和牙齿中无机成分的主要组成物质,具备良好的生物活性和生物相容性,在材料科学以及生物工程领域引起了研究者们的广泛关注。而通过调控HAp晶粒
目的:通过分析本院宫颈癌及宫颈鳞状上皮内病变患者的高危亚型HPV感染情况,了解本地区宫颈癌及宫颈鳞状上皮内病变与高危亚型HPV感染的关系,为本地区HPV感染的预防、治疗提供一定的参考依据。方法:回顾性纳入2018年01月-2019年06月于川北医学院附属医院妇科就诊,经病理科确诊为宫颈癌或SIL,同时在检验科进行HPV分型检测的患者;HPV检测采用高危HPV分型核酸测定试剂盒进行;针对HPV感染情
本文是译者根据英译汉翻译实践项目《民主生态社会主义:应对气候危机的南非及全球方案》第七章和第八章所撰写的翻译实践报告。原书由14位南非的政治学、经济学、社会学和环境科学等领域的专家学者合著,深入分析了造成全球气候危机的原因并提供了一些解决方案,具有较高的实用价值。目前该书在国内尚无中文译本,翻译本书或许对生态相关领域的政策制定者具有一定的启发意义。在翻译学领域,目的论对应用翻译的指导意义一直受到国
水文干旱作为极端水文事件之一,是地下水与地表水异常偏少的现象,是气象干旱的延续与发展,其演变特征不仅与气候变化有关,而且与社会系统的物理机制联系密切。研究水文干旱对
3D 打印皮肤组织表皮层的种子细胞常用人角质形成细胞系和分离自皮肤组织的角质形成细胞。人角质形成细胞系为转化细胞,其性状和基因表达与正常的角质形成细胞有差异;分离自皮肤组织的角质形成细胞则扩增次数有限。表皮干细胞(Epidermal stem cells,EpSCs)能不断增殖,并分化成表皮层各种细胞,是3D打印组织工程理想的种子细胞,具有很好的应用前景。目前以EpSCs为种子细胞打印皮肤组织的报
在科技迅速发展的今天,国家日益注重创新人才的培养,任何人可以在任何地方进行发明创造,同时,学校也越来越重视学生创造力的培养。创客教育作为创客精神与教育相遇的产物,也应运而生,其项目式学习、创新教育的思想,符合中小学生的发展特点,使学生有机会进行动手操作与创造发明,因此,有众多的中小学以校本课程或社团活动的形式在学校开展了创客教育,旨在培养学生的创新思维、创新能力与动手操作能力,创客教材作为知识的载
我国已进入道路养护时代,大量服役道路面临着巨大的养护压力,微表处具有开放交通快、经济效益好、低能耗、绿色环保等诸多优势,被国内外广泛用于路面养护。但经传统微表处养护后的路面仍会面临诸多与温度有关的病害,如低温开裂,冬季路面积雪、低温结冰,影响行车安全和使用性能。为改善经微表处养护后路面的性能,减小或消除与低温有关的病害,本文提出将相变材料掺入微表处混合料,利用相变材料随温度变化而改变物质相态释放或
聚类算法作为数据挖掘算法中常用的一类方法正受到越来越多的关注。其中基于密度峰值查找的快速聚类算法CFSFDP(Clustering by fast search and find of density peaks)算法是