基于多特征融合的网页对象自动定位技术研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:jk224wang1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页对象定位技术是实现网页信息抽取的一项关键技术。该技术能够自动地、准确地找到网页中有价值的信息所对应的网页对象。在此基础上,进行数据抽取就变得非常容易了。所以,该技术在网络数据挖掘、垂直搜索和搜索引擎等领域都是一个非常基础的关键性技术。本文提出了一种基于多特征融合的网页对象定位方法。该方法通过有机融合多种网页对象定位方法,实现了网页对象定位的准确率和定位的稳定性优于单独使用其中的任何一种方法。该方法主要分为两个阶段,分别是网页对象特征抽取阶段和网页对象定位阶段。在网页对象定位特征抽取阶段,本文首先定义了网页对象特征描述语言,用来表达各种网页对象定位特征。该语言是开放的,可扩展的,以后还可以增加新的定位特征。然后,本文设计并实现了网页DOM树路径特征的提取方法,并在此基础上,先后提出了基于压缩树的网页对象定位方法和基于参考点的网页对象定位方法。这三种方法分别抽取网页对象的三种不同的辅助定位特征。在网页对象定位阶段,本文不仅实现了基于上述三种特征的网页对象的定位方法,还实现了基于上述三种特征的融合的定位方法。为了验证该方法的有效性,本文接着进行了测试,测试结果表明,本文提出的基于多特征融合的网页对象定位方法具有更高的准确性和稳定性。
其他文献
飞行/推进综合控制是未来先进飞机和发动机控制的发展趋势。本文主要开展了飞行/推进综合系统集中控制技术及其分离方法的研究。本文首先研究了建立飞机/推进综合系统状态空
体温、脉搏是人体最重要最基本的生命指标,体温、脉搏的测量对临床工作至关重要。通过观测体温、脉搏的变化可以了解体内重要器官的活动和判断疾病的情况,这样可以使医师准确
无人直升机(Unmanned Helicopter,简称UH)的飞行控制系统已经开始向智能的复杂控制系统迈进,由传统的回路控制设计拓展到兼具监督管理、场景感知、诊断、优化等功能的多层次
本文以国家863计划项目-“长航时高动态条件下高精度组合导航技术研究”为课题背景和技术要求,根据空中载体导航的实际经验,在作者导师、教研室其他老师以及合作单位的参与指导
目前在常规野战火箭弹中,为了提高射击精度,一般采用高速旋转的形式;对某些导弹,从控制系统的需要出发,也要求在飞行中产生低速旋转。因此,实验研究旋转发动机的各种工作特性,
复合材料因其高比刚度、高比强度、抗疲劳、耐腐蚀等优异性能,在飞机结构中得到越来越广泛的应用。另一方面,复合材料构件制造精度不易控制,且复合材料构件基体较脆,层间强度
在轨服务技术的发展促进了空间自主对接技术的发展,空间自主对接需要有小型快速的通用对接平台,围绕对接机构设计过程中缓冲阻尼系统的设计,本文进行了相关研究工作,主要内容
激光测振仪作为一种高精度的振动测量传感器,近年来在国防和民用领域得到了广泛的应用,对其校准的需求也与日俱增。论文对激光测振仪的校准问题进行研究,针对不同的校准要求
网络虚拟实验对于高校实验教学具有重大意义和应用价值。当前计算机技术、虚拟现实技术和网络技术的快速发展,为建立逼真的三维实验设备及环境、实现复杂的实验交互功能、远程访问实验教学资源提供了必要条件。本文以机械学科的课程实验为对象,研究了虚拟实验的实现方法,构建了虚拟实验系统。该方法采用VRML(虚拟现实建模语言)描述机械学科虚拟实验的设备和场景,利用VC程序实现用户与虚拟实验设备及场景的交互和控制。主
高超声速飞行器及其推进系统是当前各国研究与开发的热点,从推进系统和飞行器的一体化的角度来考虑,非对称大膨胀比喷管(SERN)是目前最好的选择,引起了国内外越来越多的重视