基于包装器模型的文本信息抽取算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:acmilanno1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网技术的迅速发展,网上信息成几何级数增长,如何自动处理这些海量联机文本信息成为目前重要的研究课题。文本信息抽取是指从一段文本中抽取指定的信息(例如事件、事实),并将其形成结构化的数据填入数据库中供用户查询使用的过程。自动文本信息抽取是处理海量文本的重要手段之一。本文研究基于包装器模型的文本信息抽取算法。本文首先总结了三种常见文本信息抽取模型,对比了三种文本信息抽取模型的优缺点,着重研究基于包装器模型的文本信息抽取。在分析了基于包装器模型的文本信息抽取典型归纳学习算法的基础上,利用页面的一些重要特性,例如注释和文本模式信息,提出了一种新的归纳学习算法,新算法将注释信息加入到抽取规则的有限状态机的状态序列中,从而能有效地降低算法搜索时间,并能对目标信息进行充分的定位;并且新算法能用学习到的文本模式信息对抽取结果进行必要的过滤。分析和实验结果表明新的算法具有较高的抽取精度和召回率。针对WEB页面结构多变、包装器易于失效这个缺陷,本文提出了一种新的包装器平衡算法,该算法能利用页面上一些不变的重要特性信息来确定数据项的位置,然后对包装器进行修复,从而维持包装器的平衡。实验结果表明,新的算法能适应绝大多数WEB页面的变动,能自动产生新的归纳学习算法,并且具有较高的抽取精度和召回率。考虑到训练数据的手工标记成本很高,本文将主动学习的一些算法应用到上述新提出的归纳学习算法中,用主动学习算法来选择实用价值最高的信息来让用户标记,由此可有效地减少由于用户盲目性而产生的过多的手工操作。
其他文献
随着电子商务技术的快速发展,原来那种基于特定系统和特定环境的开发方式逐渐无法适应新的需求变化。Web Service技术的出现,给异构系统间的商务应用集成带来了前所未有的希望
基于构件的开发(Component-Based Development,简称CBD)或基于构件的软件工程(Component-Based Software Engineering,简称CBSE)是一种软件开发新范型。它是在一定构件模型的
本文主要介绍了一种基于嵌入式技术实现的球磨机料位检测系统的设计方案,该系统的主要原理是通过对球磨机工作时发出的磨声信号进行采集,然后利用数字信号处理的相关技术来分
论文针对煤炭企业在销售中所面临的问题和挑战开展研究,基于数据挖掘和销售预测相关理论,对平顶山天安煤业股份有限公司一段时期内煤炭交易数据进行了深入分析和研究,提出了
随着市场环境的变化,电信行业的业务开展难度逐步增大,特别是WTO的加入,更进一步加剧了电信市场的竞争。这使得电信企业纷纷要求采用新技术,发展业务竞争能力,挖掘潜在用户,以求取
组件技术解决了软件分布性和可重用性的一些问题。COM和CORBA、EJB是当今的三种主要组件技术标准。特别是COM在Windows平台优雅地解决了这些问题。MTS对组件和事务的管理,提
实时系统中的软件安全不仅与软件的功能是否达到预期有关,同时还取决于软件的运行能否满足截止时间要求。随着软件在实时系统中发挥的作用越来越关键,程序的规模和结构也随之
随着电子邮件技术,即时通讯技术和桌面会议系统的发展,计算机支持的协作在今天的计算机使用中占据了重要的地位。本文分析了现有的协作工具的特点及其在协作中的作用,研究了L
在当今网络信息时代,SAN(存储区域网络)是存储领域近来十分引人注目的技术。它一方面能为网络上的应用系统提供丰富、快速、简便的存储资源;另一方面又能共享存储资源并对其
在日常的生活中,人们经常需要将自己的某些权力委托给可靠的代理人,让代理人代表他去行使这些权力,例如签名权限的委托。在现代电子化的信息社会里,同样也需要签名权的代理。