【摘 要】
:
随着互联网上信息的爆炸式增长,通用的搜索引擎很难满足特定用户“专、精、深”的查询需求,在此情况下垂直搜索引擎应运而生。本文研究了垂直搜索引擎的几项主要技术:主题爬虫
论文部分内容阅读
随着互联网上信息的爆炸式增长,通用的搜索引擎很难满足特定用户“专、精、深”的查询需求,在此情况下垂直搜索引擎应运而生。本文研究了垂直搜索引擎的几项主要技术:主题爬虫技术,网页净化技术和信息抽取技术。首先本文设计了一个基于单类别文档分类的主题爬虫,并对单类别文档分类算法中的原型算法进行改进,使用最小二乘法来求解原型向量的最优解,从而提高原型算法的分类精度;实验证明我们对原型算法的改进明显提高了分类的精确度。其次本文还提出了两种基于DIV_DOM模型的网页净化算法,分别是基于DIV_DOM模型的启发式网页净化算法和基于DIV树形模板的网页净化算法;并将这两种网页净化技术应用于主题爬虫中以评价它们对主题爬虫的性能的影响;实验证明后者比前者对网页具有更优的净化效果。最后在本文提出的基于DIV_DOM模型的网页净化算法的基础上,本文提出了另一种基于DOM的网页结构化信息抽取技术,并使用归纳学习算法来自动学习抽取规则;实验证明了该信息抽取算法的有效性。
其他文献
传感器、现代网络和无线通信等技术的进步,推动了现代无线传感器网络的产生和发展。无线传感器网络由大量传感器节点按照自组织的方式进行构建,节点间相互协作,通过收集监测区域
随着计算机技术的发展,系统软件在人们的日常生活中变得越来越重要,特别是操作系统软件,在很多关键领域的应用也越来越多,所以操作系统的健壮性评测也变得越来越重要。系统健
本论文完成了两点式电阻触摸屏系统设计,包括硬件和软件设计及算法实现。提出了采用蛇形电阻来取代传统的多线式触摸电阻屏的方法,来实现单点/双点触摸屏结构。通过对整个系
在和谐人机交互与人工智能领域,情感计算作为一个新的研究方向,日益受到关注。本文采用计算机视觉的方法,让家庭服务机器人通过对人脸表情的识别来认知人类情感,进而做出相应
动态联盟将成为新世纪企业超越传统竞争的新模式的观点,已被学术界和企业界广泛接受,然而,企业如何得到联盟信息,得知信息后如何进行联盟,谁来对联盟进行管理,保障企业的根本
随着汽车工业的迅速发展,汽车控制部件越来越多,控制系统越来越复杂,导致汽车控制软件的开发引入了很多问题,比如重复性开发,软件开发效率低,系统的移植性和扩展性问题。为了
远程实验室可以分为虚拟现实实验室和远程控制实验室。虚拟实验室是采用虚拟仿真技术实现的开放式实验系统,虚拟实验室由虚拟试验台、虚拟器材库和开放式实验管理系统组成,几
“质量即生命,责任重泰山”,工程质量一直都是工程建设过程中关注的焦点,而对工程项目建设过程的质量监督是保证工程质量的有效手段,传统的工程质量监督主要面向业务设计,面
随着无线传感器网络(Wireless Sensor Network,以下简称为WSN)的广泛应用,针对WSN的优化设计方法也得到了越来越多的关注。WSN由于其传感器节点自身能力以及无线传输方式的限