【摘 要】
:
Hidden Web中包含了大量结构好、质量高的信息,而且随着信息化建设的加强,这些信息的数量一直在快速增加。虽然Hidden Web的信息量变得越来越大,但是现有搜索引擎对其的搜索
论文部分内容阅读
Hidden Web中包含了大量结构好、质量高的信息,而且随着信息化建设的加强,这些信息的数量一直在快速增加。虽然Hidden Web的信息量变得越来越大,但是现有搜索引擎对其的搜索能力却非常有限,导致了许多优质信息无法被广泛获取,造成了大量的信息资源浪费。分析了Hidden Web的成因和已有的一些搜索方法,发现这些方法多是从Hidden Web数据库的分类以及查询接口的集成方面进行研究,在Hidden Web普适性搜索上存在不足。为了找到Hidden Web搜索的普适性方法,主要从解决搜索引擎对Hidden Web搜索的局限性出发,对Hidden Web搜索技术进行了以下两方面的研究:(1) Hidden Web查询接口的自动识别。摒弃了传统的采用样本集训练的识别方法,采用关键词模糊提交,并对返回结果分析处理的方法。识别精度不受训练集的影响,识别效率大大提高。(2) Hidden Web查询关键词的产生算法。采用样本估计的方法产生候选关键词,并对样本词频进行了进一步的分析,得出了样本词频公式。使用样本词频公式选择关键词,可以很好地符合词频走势,使得到的关键词最优。经过实验证明,论文中提出的接口识别方法和关键词产生算法切实可行,能够准确识别出Hidden Web的查询接口,并可以快速地对查询关键词进行优选,为Hidden Web的普适性搜索奠定了基础。
其他文献
分类是数据挖掘中非常重要的一类技术,其中的贝叶斯分类器是应用概率统计学知识进行分类的算法。一般来讲,同一个分类器针对不同的数据集,其分类精度会有着相当大的差异。这
伴随着移动互联网技术与地理定位技术的崛起,基于位置的服务迅速地渗透到互联网的各类网站和应用中。其中,融合基于位置的服务与传统社交网络结构的位置社交网络发展迅猛,许多结
数字水印技术属于信息安全的范畴,是信息隐藏的一个分支。数字图像水印是数字水印技术研究的一个方面,具有极大的理论研究价值和应用前景,是目前学术研究的一个热点。本文首
细分曲面造型技术由于其在拓扑结构、数值稳定性和易于实现等方面的优势,近些年来逐渐成为计算机辅助几何设计(CAGD)的研究重点。网格细分采用递归思想,它实际上是一个网格序
敦煌研究是目前文物保护研究的热门领域。利用计算机技术,智能学习敦煌壁画,意义重大。本文研究面向高精度敦煌壁画的对象识别方法,研究怎样从一幅高精度壁画中识别各种壁画
传感器、嵌入式计算、网络和无线通信技术的进步,推动了无线传感器网络的产生和发展。无线传感器网络通过无线通信方式形成的一个多跳的自组织的网络系统,能够协作地实时监测
移动自组网(Mobile Ad-hoc NETworks,MANETs)是一种没有基础设施支持的移动无线网络,具有无中心、自组织、可快速部署、动态拓扑和多跳等特点。这些特点使它可以广泛地应用于
自碰撞检测是虚拟手术仿真中的重要问题,自碰撞检测的效率是影响虚拟仿真应用真实感和沉浸感的重要因素。本文对白碰撞检测算法进行了深入的研究,主要包括以下几个方面的内容
随着信息时代的发展,各种商业和科学数据库的数据量急剧增长,远远超过了人类目前已有的分析和理解能力。数据挖掘正是在这样的背景下产生的新的研究领域,主要目的是从数据集
近年来,人体运动分析成为图像处理和计算机视觉领域中一个热点课题,它在人体动画、游戏、虚拟现实和增强现实、人机交互、视频监控、体育运动分析、辅助临床医疗诊断等领域都