基于采样的Deep Web数据源选择方法研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:tjunu520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网信息的飞速发展,Web中蕴含了海量的信息供人们使用,其中Deep Web数据库是对用户不可见的,其中涵盖的信息只能通过特定的查询接口来查询获得。为了充分利用Deep Web中丰富的有价值的信息,以及提高对其查询的效率,Deep Web数据集成系统的建立成为了当前的研究热点。其中,Deep Web数据库的选择则是此集成系统中查询处理模块相当重要的环节。本文针对Deep Web数据源的选择,从通过采样的办法获取数据源特征,评估采样质量,以及根据选取评价指标计算数据源的总体得分对数据源进行排序、选择,这三个方面进行重点研究。第一,本文在基于采样的随机漫步采样方法的基础上,针对对于关键字属性研究的缺失,通过分析采样过程中属性分类的问题,提出一种引入关键字属性并对其进行属性分类的扩展方法,同时,进一步考虑到已有研究缺乏对分类属性中含树形特征的属性的研究,从而提出树形分类属性的概念并给出了在采样过程中的处理方法。第二,在原始随机漫步采样方法的基础上,通过保存采样路径,使随后产生的将要进行采样的路径与已有路径进行扫描比较,据此提出一种避免拥有部分相同路径的属性值产生重复提交查询的随机漫步方法的改进算法,以此对数据源进行采样,从而进一步提高采样效率。第三,在采样评价体系中考虑了样本与数据源的信息内容的一致性,将文本信息内容的文本相似度计算方法引入采样质量评价体系中来,结合样本集与数据源比值法对样本偏差的衡量,进一步完善了对采样质量的评价。第四,在采样结果所获样本集的基础上,对数据源质量进行评价,给出权威性、领域相关性、准确性、冗余性、时效性这五个评价指标对数据源质量进行评估,并给出五项指标的量化方法及公式。并在准确性指标计算中,对语义相似度的计算做了相应的改进,将汉明距离的相似度计算方法加入了语义相似度的元素。通过对五个指标的综合评价,得到数据源的总体得分,按总分进行排序选择。实验表明,本文提出的方法,对以往方法存在的问题有了很大的改进,并进一步在采样质量和效率上都有很好的效果和提高,对样本集的质量评估更可靠有效。
其他文献
随着传感器技术和计算机技术的发展,现代光生物反应器已是集生物技术、空气动力学技术、制造技术、计算机技术和传感器技术等各门学科为一体的边缘学科,其功能愈来愈趋向于多样
数据通常是一个组织最敏感、最有价值的资源。在重大的国防、金融、政府机关应用中,其安全性甚至比数据库的性能更为重要。动态的系统环境对访问控制策略造成了新的挑战,实体的
随着信息技术的飞速发展,在E-Learning的研究领域中,情形分析、情感激励和导航已逐渐成为该领域内的一个活跃的研究方向。它的目的是要通过分析学习者的学习情形,进一步分析
学位
随着数据库技术和网络技术的快速发展,企事业单位相继构建本单位的数据库应用系统和Intranet环境,日积月累,各个企事业单位均存储了大量的数据。如何有效利用这些海量数据并
随着计算机技术、通信技术、集成电路技术和控制技术的发展,传统的工业控制领域正经历着一场前所未有的变革,开始向网络化方向发展。本文即从未来工业控制网络发展的需要出发,设
利用立体模型来帮助学生培养空间想象能力和形象思维能力是工程制图教学中常用的手段和方法,但传统实物模型的使用受到时间和空间的限制,无法最大限度地发挥其作用。因此,设
协同设计为设计组成员间相互交流和协调工作创造了条件,支持群体工作,进一步提高了人们的工作效率和工作质量。由于设计过程是一个不断反复和多人合作的过程,方便、有效的版本控
门限代理重签名是将门限化的秘密分享技术与代理重签名体制相结合,利用秘密分享技术的优势来弥补代理重签名体制中的不足。在代理重签名体制中,它是依靠一个半可信任的代理,
近年来,个性化主动信息服务的研究取得了很大的进展。而在个性化主动信息服务中最重要的服务就是个性化信息推荐。作为人工智能的一个重要研究领域,数据挖掘近年来有了广泛的应