基于语义的Deep Web数据源分类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：FalyE981521

【摘要】

：

随着互联网技术的飞速发展，诞生了很多的Web数据库，并形成一个巨大的信息资源库，为人们提供了海量信息。按照Web中所蕴含信息结构“深度”的不同，可以将Web分为Surface Web和Deep

【作者】

：

刘伟平

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2012年期

【关键词】

：

Deep Web数据源分类语义树改进K-NN算法加权朴素贝叶斯算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的飞速发展，诞生了很多的Web数据库，并形成一个巨大的信息资源库，为人们提供了海量信息。按照Web中所蕴含信息结构“深度”的不同，可以将Web分为Surface Web和Deep Web两大类。Deep Web信息在数量和质量上远远超过了Surface Web，并具有更高的应用价值。由于Deep Web数据具有动态性、隐蔽性、异构性、分布式等特点，这使得Deep Web数据集成面临巨大的挑战。因此，如何快速有效的对Deep Web数据源分类，以便于更有效的分析挖掘，具有重要的现实意义和广阔的应用前景。本文针对Deep Web数据集成中的数据源分类问题进行了深入的研究，提出了一种新颖的基于语义树的分类模型，并设计基于密度的自适应K-NN分类算法和加权朴素贝叶斯分类算法，有效提高了分类的准确率。本文主要的研究工作如下：1、查询接口页面特征抽取是Deep Web数据源分类的前提。本文基于页面-表单模型，有效地抽取了查询接口页面的特征，最后使用了信息增益的特征选择方法筛选领域的重要特征。2、由于Deep Web数据源之间的异构性，导致不同Deep Web接口表单上的特征有很多同义词和多义词现象，缺乏统一的语义理解。本文建立了基于语义树的Deep Web数据源分类模型。3、针对传统K-NN算法和朴素贝叶斯算法的不足，本文提出了基于密度的自适应K-NN分类算法和加权朴素贝叶斯分类算法。4、本文最后在UIUC Web数据集上进行实验验证，通过对实验结果数据统计和对比分析，充分验证本文提出的基于语义树分类模型以及基于密度的自适应K-NN分类算法和加权朴素贝叶斯分类算法的可行性和高效性。

其他文献

P2P网络中穿越NAT的SIP协议的Petri网建模及分析

SIP(Session Initiation Protocol，会话初始化协议)作为IP网络中的信令协议，其主要功能是建立和管理呼叫，具有简单、灵活、可扩展性强的优点，是下一代网络(NGN)的核心协议之一。

学位

P2P网络SIP协议Petri网建模网络地址转换C/S模式

面向SaaS提供商的数据库迁移和资源供给机制的研究

随着云计算商业模式的飞速发展，越来越多的软件企业进入SaaS（Software as aService，软件即服务）市场，降低成本提高效益成为SaaS提供商迫切需要解决的问题。把传统软件迁移成SaaS软

学位

SaaS提供商效益提高SaaS软件迁移多租户数据库模式资源供给

矿山三维地质模型可视化平台消隐算法应用分析与研究

数字矿山的提出象征着我国矿业已进入数字化矿产科技时代。如何顺应甚至超越世界矿产科研潮流就成为当前国内外研究领域的热点之一。数字矿山不同于经典矿业，它必须有计算机和

学位

数字矿山三维地质模型可视化平台消隐算法

结合双向二维主成分分析和Fisher线性判别的人脸表情识别的研究

人脸表情识别是一个非常具有挑战性和非常有意义的课题，它不仅涉及到计算机视觉、心理学、生理学等相关学科，还涉及到模式识别和图像处理技术等。随着科技的进步，人们对计算机的

学位

双向二维主成分分析Fisher线性判别支持向量机表情识别

基于LDA和WordNet的研究主题动态演进挖掘

目前，互联网中存在大量的电子科技论文档案，如何管理和分析这些文档已经变得越来越重要。本文以此作为切入点，着重挖掘论文集中潜在的研究主题以及主题的动态演进规律。本文采用

学位

LDA模型WordNet词典动态演进挖掘co-author关系

农业综合信息服务关键技术研究与软件开发

信息服务是用不同的方式向用户提供所需信息，帮助用户解决问题的一项活动。随着信息技术的飞速发展，其内涵和外延也正在不断地扩展和变化。针对我国农业生产、管理、科研等各方

学位

农业综合信息服务技术Web技术软件开发可用特性网页信息抽取算法

基于GPRS/GSM技术的远程抄表终端的设计与实现

传统的电量抄读及结算是依靠人工定期到现场抄取数据，存在效率低、成本高、无法监控等问题，在实时性、准确性和应用性等方面也存在诸多不足之处，已经无法满足现代化城市的需要。

学位

GPRS技术GSM技术远程抄表终端SIM300C通讯模块Internet网络短消息

基于元数据控制的ETL方法研究与软件开发

随着信息化进程的不断推进，大部分企业已经把数据仓库作为企业数据集成的主流技术，为企业提供综合的真实的数据视图。而数据的抽取、转换、加载（Extraction、Transformation、Lo

学位

元数据控制ETL方法数据仓库技术异构数据统一操作平台

基于免疫Agent的无线网络检测系统研究

近年来，无线网络的发展非常的迅速，但与其相关的网络安全问题也随之而来。其最主要的安全问题的是无线网络中的恶意节点问题。恶意节点是多种有害无线网络安全行为的一种统称，其

学位

无线网络恶意节点移动Agent免疫原理阴性选择算法检测器

网络搜索的个性化潜力研究

People use Web search engines to look for information on the Web However，current Web search engines do not fully satisfy the needs of different individuals havin

学位

personalizedsearchframeworkpersonalizedsearchframeworkpotentialforpersonalizing

基于语义的Deep Web数据源分类研究

其他学术论文