【摘 要】
:
随着Web信息的迅速扩张,Web成为当今信息获取和发布的事实标准。为此人们对信息抽取(IE)系统进行大量研究,以帮助用户在浩瀚如烟的Web上准确有效地提取自己真正需要的信息。
论文部分内容阅读
随着Web信息的迅速扩张,Web成为当今信息获取和发布的事实标准。为此人们对信息抽取(IE)系统进行大量研究,以帮助用户在浩瀚如烟的Web上准确有效地提取自己真正需要的信息。如今已出现大量的信息抽取系统,如W4F、RoadRunner、WHISK、RAPIER、WIEN等。它们在使用技术、自动化程度、适用领域等方面都存在一定的差异性。IE系统中最重要的是抽取规则,它用来定位和识别待抽取的信息。WHISK系统是一个半自动的IE系统,对结构化、半结构化的Web文本它都能使用生成的抽取规则进行信息抽取。但是它在规则学习过程中规则不能保证以最优的方式进行扩展,且生成规则集的效率较低。针对以上问题,本文提出了利用遗传算法改进WHISK的监督式学习算法,并采用移除法生成规则集。算法主要实现以下功能:一、例子的预处理,包括例子去噪和例子标注;二、项的定义和转化;三、用遗传算法扩展规则;四、用移除法生成规则集。我们还实现了一个用于在线挖掘网站的Web信息抽取系统,应用检索规则探查不同网站,使用抽取规则抽取浅层知识,再进行统计分析发现变化趋势。系统主要提供以下功能:1、根据检索规则自动下载并解析网页;2、在用户的参与下,提供图形用户界面定义单槽抽取规则或通过学习算法生成多槽抽取规则;3、实现批量任务的自动抽取并存储数据;4、对抽取的历史数据,提供直观的图形显示统计结果。通过对多种类型的真实在线的网页进行实验分析,表明IE系统有较好的通用性;通过与WHISK系统的实验结果进行比较分析,表明利用遗传算法的规则学习算法在效率和准确率上都有一定的提高。
其他文献
障碍物检测是移动机器人环境感知技术研究的重要内容。传统的障碍物检测方法需要人工调节参数。引入机器学习进行障碍物检测可以降低人工参与和提高移动机器人智能程度,也可
随着微电子技术和计算机技术的发展,嵌入式系统已成为计算机领域、现代电子设计领域的重要组成部分,并成为研究的热点。以单片机、ARM、DSP、FPGA为核心的嵌入式系统以其高性
成人高等学校招生全国统一考试是为我国各类成人高等学校选拔合格新生以进入更高层次学历教育的入学考试,是国家教育统一考试,是政府行为,体现国家意志。按照教育部加快招生考试
随着现代应用需求对于计算机数据安全性要求的提高,数据已经成为企业正常运作的重要基础,数据容灾在这样的应用需求背景下得以迅速发展,传统的备份,快照技术已经不能满足在线业务
以光纤通信为代表的传输网构架了现代通信最重要的基础网络,为各类电信业务网提供传输通道和传输通道保护。对传输网进行管理自然是整个网络管理系统的重要组成部分。 随着
无线Mesh网络(Wireless Mesh Network, WMN)作为一种新型的无线网络技术,融合了无线局域网(Wireless Local Area Networks, WLAN)和移动自组织网络(Mobile Ad Hoc Networks)
煤炭是中国能源的主体,选煤是提高煤炭质量的有效技术手段。为了提高选煤厂设计效率,本文提出了基于Java的选煤工艺流程GUI(Graphic User Interface)设计与实施。系统采用面
排课是高校教学管理工作中的一项十分繁重且相当复杂的工作。随着各高校的不断扩招,教室和教师资源日益紧张。在这种情况下,利用计算机自动排课,生成结构合理、满足各方需求
对于法定计量检测机构,计量器具检测报价和划价信息的管理都是非常重要的工作。然而,大多数机构对于检测价格信息的管理还停留在传统的工作模式下,耗费大量的时间和资源,却不
获取准确的车辆位置信息是当前智能交通系统研究中的热点问题,也是车载自组织网络(VANET)中车辆定位和导航技术的关键问题。近年来,利用车载自组织网络进行智能交通系统(ITS)的