论文部分内容阅读
由于互联网信息的飞速发展,Web中蕴含了海量的信息供人们使用,其中Deep Web数据库是对用户不可见的,其中涵盖的信息只能通过特定的查询接口来查询获得。为了充分利用Deep Web中丰富的有价值的信息,以及提高对其查询的效率,Deep Web数据集成系统的建立成为了当前的研究热点。其中,Deep Web数据库的选择则是此集成系统中查询处理模块相当重要的环节。本文针对Deep Web数据源的选择,从通过采样的办法获取数据源特征,评估采样质量,以及根据选取评价指标计算数据源的总体得分对数据源进行排序、选择,这三个方面进行重点研究。第一,本文在基于采样的随机漫步采样方法的基础上,针对对于关键字属性研究的缺失,通过分析采样过程中属性分类的问题,提出一种引入关键字属性并对其进行属性分类的扩展方法,同时,进一步考虑到已有研究缺乏对分类属性中含树形特征的属性的研究,从而提出树形分类属性的概念并给出了在采样过程中的处理方法。第二,在原始随机漫步采样方法的基础上,通过保存采样路径,使随后产生的将要进行采样的路径与已有路径进行扫描比较,据此提出一种避免拥有部分相同路径的属性值产生重复提交查询的随机漫步方法的改进算法,以此对数据源进行采样,从而进一步提高采样效率。第三,在采样评价体系中考虑了样本与数据源的信息内容的一致性,将文本信息内容的文本相似度计算方法引入采样质量评价体系中来,结合样本集与数据源比值法对样本偏差的衡量,进一步完善了对采样质量的评价。第四,在采样结果所获样本集的基础上,对数据源质量进行评价,给出权威性、领域相关性、准确性、冗余性、时效性这五个评价指标对数据源质量进行评估,并给出五项指标的量化方法及公式。并在准确性指标计算中,对语义相似度的计算做了相应的改进,将汉明距离的相似度计算方法加入了语义相似度的元素。通过对五个指标的综合评价,得到数据源的总体得分,按总分进行排序选择。实验表明,本文提出的方法,对以往方法存在的问题有了很大的改进,并进一步在采样质量和效率上都有很好的效果和提高,对样本集的质量评估更可靠有效。