基于关键资源的网站分类研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:p244150486
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的信息组织趋向于专业化以及Web信息的爆炸性增长,如何从信息海洋中获取所需的信息,已经成为Web信息应用的关键问题。当前,在针对信息导航的研究中,除了以Google、百度为代表的关键词检索策略外,网络信息分类导航技术也逐渐成为研究热点。目前主要的网站分类方法主要有超页法以及主题频次向量法等,这些方法都是针对网站的所有网页进行处理。由于网站是一个复杂的拓扑结构,网页设计者根据网站的需要会添加很多对网站分类带来影响的页面和链接,如果考虑网站的所有页面,必将引入噪音链接影响分类时间以及分类效果。针对上述提出的不足,本文提出三种基于关键资源的网站分类方法,从网页内容以及网站拓扑结构两个角度出发,重点讨论了两种不同的网站关键资源获取算法。1.基于网站拓扑结构的关键资源获取算法:用有向图来描述网站的拓扑结构,利用改进的PageRank算法对网站中的页面进行排序,选取网站的关键资源。本文将网页链接性分析和网页内容相关性分析相结合,提出基于改进的PageRank获取网站关键资源的算法。2.基于网页内容的关键资源获取方法:利用网站及网页的结构特征,将网站表示成多粒度树,然后根据剪枝算法对页面树进行剪枝获取网站的关键资源。3.基于网页内容和网站拓扑结构相结合的关键资源获取算法。该算法将基于网页内容获取的关键资源与基于改进的网站拓扑结构获取的关键资源相结合,重新排序选取网站的关键资源。实验结果证明,基于网页内容和网站拓扑结构相结合的关键资源获取算法,比单独使用每种方法其准确率、召回率以及F1值都有所提高。
其他文献
长期以来,型号软件的研制生产效率过低、周期过长、成本过高、风险难以控制,已成为制约武器装备更新换代速度、降低武器装备生产效率的关键因素。采用代码自动生成的方法可以
随着网络的蓬勃发展,计算机软件得到了长足的发展,它在社会的各个领域得到了广泛的利用。同时,这些软件程序存在着一些安全漏洞。缓冲区溢出漏洞就是最明显的一个。本文基于G
随着网络技术的迅速发展及网络规模的不断扩大,网络在人们生产、生活中的应用越来越广泛,网络的安全性和稳定性越来越受到人们的重视。网络管理系统是维护和保证网络安全、稳
Web服务是基于网络的、分布式的模块化组件,它定义了应用程序如何在Web上实现互操作,已成为一种具有发展潜力的分布式网络应用集成技术。Web服务发现是Web服务应用中的关键技
VANET (Vehicular Ad-hoc Network)作为一种运行在特殊的高速移动网络环境中提供丰富移动应用程序与服务的分布式自组织网络,相关的应用与发展的研究早已备受关注。在VANET中
中文人名识别任务是中文信息处理领域中的基础任务,其性能的好坏将直接影响到其他任务的性能。中文人名的随意性使其在未登录词中占有较大的比重,解决未登录词识别问题首先要
语义网(Semantic Web)的目标是通过在网页内容上附加形式化的语义信息,让机器也能够理解网页的内容。随着语义网技术逐渐成熟,人们根据互联数据(Linked Data)的原则在语义网
近年来无线传感器网络在国防、电力、能源、环境、医疗、灾难预警等领域得到了广泛应用。无线传感器节点由于能量有限,如何减少传感器节点的数据传输量,并保持传感器网络感知
近年随着各界对软件定义网络研究的不断升温,越来越多的研究者向该领域投入了极大的热情。特别是对于控制器的研究,由于目前学术界和工业界都还没有统一的标准,因此各界都想
知识迅猛增长的现在,谁获得了更多的有价值的知识,谁就在这个竞争极其激烈的社会中掌握了主动权。随着Internet及其相关技术的不断发展与日趋成熟,WEB信息以指数速度增长。在