论文部分内容阅读
随着互联网技术的飞速发展,诞生了很多的Web数据库,并形成一个巨大的信息资源库,为人们提供了海量信息。按照Web中所蕴含信息结构“深度”的不同,可以将Web分为Surface Web和Deep Web两大类。Deep Web信息在数量和质量上远远超过了Surface Web,并具有更高的应用价值。由于Deep Web数据具有动态性、隐蔽性、异构性、分布式等特点,这使得Deep Web数据集成面临巨大的挑战。因此,如何快速有效的对Deep Web数据源分类,以便于更有效的分析挖掘,具有重要的现实意义和广阔的应用前景。本文针对Deep Web数据集成中的数据源分类问题进行了深入的研究,提出了一种新颖的基于语义树的分类模型,并设计基于密度的自适应K-NN分类算法和加权朴素贝叶斯分类算法,有效提高了分类的准确率。本文主要的研究工作如下:1、查询接口页面特征抽取是Deep Web数据源分类的前提。本文基于页面-表单模型,有效地抽取了查询接口页面的特征,最后使用了信息增益的特征选择方法筛选领域的重要特征。2、由于Deep Web数据源之间的异构性,导致不同Deep Web接口表单上的特征有很多同义词和多义词现象,缺乏统一的语义理解。本文建立了基于语义树的Deep Web数据源分类模型。3、针对传统K-NN算法和朴素贝叶斯算法的不足,本文提出了基于密度的自适应K-NN分类算法和加权朴素贝叶斯分类算法。4、本文最后在UIUC Web数据集上进行实验验证,通过对实验结果数据统计和对比分析,充分验证本文提出的基于语义树分类模型以及基于密度的自适应K-NN分类算法和加权朴素贝叶斯分类算法的可行性和高效性。