基于语义相似度的WEB结构挖掘研究及实现

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:jhl1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,Internet/Web技术逐渐趋于成熟,Web已经成为人们的重要信息来源之一。但在提供丰富的信息资源的同时,它所具有的数据半结构化或非结构化、数据海量、实时的动态性以及用户的多态性等特点也给Web资源的使用造成了一定的难度。因此,将数据挖掘技术和Web特性结合起来,在浩瀚的信息资源中快捷、准确地检索到人们需要的信息,已成为一项迫切而有意义的研究课题。本文以体现网页链接结构关系的当代经典PageRank算法为对象,深入分析其基本思想并指出其对网页评分时存在的不足。PageRank算法主要缺陷是将PageRank值在所有的出链接上进行平均分配,而实际上每个链接的重要性和链接之间的相关性都是有差异的。它完全忽略了网页内容的语义信息,很容易受到无关链接的影响,降低了搜索结果的用户满意度。针对上述缺陷,本文通过引入基于《知网》的语义相似度,使链接锚文本的质量和其所指向网页的内容产生联系。融入出链接与目标网页主题相似度信息,使得那些没有价值的页面,或者主题不相关的网页分得较少的PageRank值,提升了真正与主题相关、有价值的页面的PageRank值。据此更加精确的体现各个链接之间的竞争。最后实现了一个模拟的搜索引擎。该模拟系统几乎包含了搜索引擎的全部基本功能。并且在互联网真实环境下进行测试,对融入语义相似度的PageRank算法进行验证。通过实验和分析,新的算法在不影响原算法的优点和效率的情况下能更好地对网页进行评分,提升了用户满意度。它在网页优先级算法上向人工智能和语义Web又迈进了一步。
其他文献
获取准确的车辆位置信息是当前智能交通系统研究中的热点问题,也是车载自组织网络(VANET)中车辆定位和导航技术的关键问题。近年来,利用车载自组织网络进行智能交通系统(ITS)的
随着Web信息的迅速扩张,Web成为当今信息获取和发布的事实标准。为此人们对信息抽取(IE)系统进行大量研究,以帮助用户在浩瀚如烟的Web上准确有效地提取自己真正需要的信息。
当前Web拥有丰富的信息资源,己经成了人们获取信息的重要渠道。但是,由于Web页面的无结构性、半结构性、超链接的自由无序、以及Web内容的海量性、多样性和动态变化,使得人们从W
物体识别是近年来图像处理和计算机视觉领域一个十分活跃的分支和备受关注的前沿课题。该领域的研究有着广泛的应用价值,如应用于智能安全监控、人机接口、人体运动细节分析
图像是因特网上内容的一个重要组成部分,它能够直接、形象的表达信息。随着数字照相设备和具有拍照功能的手机的普及,数字图像的数量正在急剧的膨胀。与此同时,图像信息的应
USB接口给用户带来便利的同时,也带来了安全隐患,成为不法用户窃取系统信息资源的重要I/O通道之一。微软和一些第三方厂家都针对Windows操作系统对USB接口访问控制给出了自己
Ad hoc网络是一种不依赖于固定基础设施的、自组织的无线移动网络。移动终端具有路由功能,可通过无线连接动态地构成任意的网络拓扑。Ad hoc网络非常适合于军事、商业、个人
路径规划近年来一个热点研究问题,它被广泛应用于多个领域也形成了较完善的理论体系和算法基础。随着科学技术的不断进步,路径规划的应用范围也不断扩展,逐渐成为众多领域的
可满足性问题(satisfiability problem,简称SAT问题)作为第一个被证明的NP完全问题,有着重要的理论及应用意义。它是计算机理论与应用的核心问题,在计算机科学、人工智能等学
H.264采用了多种新的视频编码技术,大幅度提高了视频编码效率和重建视频质量。一般而言在相同的编码质量下,H.264比MPEG-4可以节省约1/2的码率。然而编码性能的提升是以提高