【摘 要】
:
随着Internet技术的快速发展,Web数据库得到了广泛应用。这些Web数据库能够根据用户提交的请求,将其内容以HTML页面的形式动态呈现出来。对于传统搜索引擎来说,这部分页面信
论文部分内容阅读
随着Internet技术的快速发展,Web数据库得到了广泛应用。这些Web数据库能够根据用户提交的请求,将其内容以HTML页面的形式动态呈现出来。对于传统搜索引擎来说,这部分页面信息并不能被索引到,我们称之为Deep Web。最近几年的研究成果表明,Deep Web蕴含着大量有价值的信息,这些信息与市场需求高度相关。因此,Deep Web已成为一个研究重点,受到研究人员更多的关注。本文首先介绍了Deep Web的研究框架,然后对Deep Web数据源发现技术和Deep Web语义标注技术进行了深入研究,并提出相应的算法和模型。最后,设计和实现了一个面向图书领域的垂直搜索引擎原型系统。本文研究的主要内容包括:(1)介绍了Deep Web研究的基本框架,并对Deep Web数据库分类和Web数据抽取问题作了概述。(2)分析了传统搜索引擎的工作原理,在此基础上提出一种基于搜索引擎的Deep Web数据源发现方法。(3)根据从国外相关研究中得到的一些启发,提出一种Deep Web数据源间的交叉标注方法。(4)设计和实现了一个图书领域的垂直搜索引擎原型系统,并对上文提出的技术在该垂直搜索引擎上的应用做了分析。本文还对文中提出的方法和技术进行了实验设计,通过对实验结果的分析进一步验证本文提出的技术方法是有效的。
其他文献
XML正迅速取代HTML成为Web上信息表示、集成和交换的标准。与HTML相比,XML具有简单、自我描述的特点,并且实现了内容、结构和表现三者的分离,更适合于Internet上数据表示和交
随着网络技术和测试技术的发展,协议测试技术越来越受到人们的重视。协议测试是用来保证协议实现的正确性和有效性的重要手段。作为协议测试的一种形式,协议一致性测试用于测
本文是对本公司年产260kt电解铝生产项目所配套的整流所AC220kV高压供配电及DC350kA整流机组综合自动化技术的进一步研究和思考。首先对AC220kV/DC350kA高压供配电及整流机组
随着互联网的快速发展,网上的信息也成几何级数爆炸增长,同时用户对信息的需求也越来越高,他们希望搜索引擎提供最新的数据,最符合要求的信息。传统网络爬虫作为提供搜索引擎
在如今互联网时代,人们常常在社交网络上针对事与物表达个人观点看法。运用数据挖掘方法和文本情感分析技术对涌现的用户文本数据进行分析,可以发掘普通大众对热点话题以及产
网络计划技术是项目计划与控制的一种行之有效的管理工具,对于实际项目,施工网络计划中存在种种不确定因素和不可预见因素,对施工网络图的分析计算采用传统的网络计划技术存
数据库系统正在经历巨大的变化,智能技术已经引入到数据库系统的研究中。2004年在SIGMOD国际会议上,Jim Gray说:“我们正沿着一条有价值的链条从数据到信息到知识到智慧在慢慢地
随着网络技术的飞速发展和液晶显示面板的不断普及,生动的影音视频信息以其独特的视觉感染力受到了越来越多的商家与客户的青睐,在商务楼和商场中随处可见各种形形色色的多媒
随着近年来移动设备的应用越来越广泛,对其中存储的隐私数据的保护也越来越重要。应用程序行为审计方法能找出应用程序中的敏感信息泄漏行为,从而有效地保护用户设备中的敏感
软件外包成为当今软件行业的热门话题之一,随着目前国内软件外包企业的兴起,大量的外包项目从日本、欧美等大中型企业发单过来,不仅促进了国内经济的增长,更带动了国内软件企