基于流量的Web社区挖掘技术的研究与应用

来源 :燕山大学 | 被引量 : 0次 | 上传用户:hengkuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何发现Web上根据“主题”聚集在一起的多个社区,使用户很快地从互联网上提取知识,是Web挖掘的一个研究方向。本文在深入研究Web社区挖掘技术的基础上,提出一种新的Web社区挖掘技术,并给出了该技术在图的划分问题的应用。Web社区挖掘技术的研究对集中式爬取器和搜索引擎、门户网站内容自动分类以及互联网内容的过滤都有重要的意义。首先,本文通过对比以往Web社区的表示法,提出一种定义较为严格的Web社区数学模型,同时对Web社区内、外的网页进行约束,很好地解决了Web社区定义模糊的问题。其次,提出了与表示法相应的Web社区挖掘算法。利用图论中网络流的概念,把Web构造成图,利用图的入度、出度性质给它们之间的边赋予容量,构造网络流模型,然后使用最大流/最小割原理,得到最终的社区。再次,由于该社区挖掘技术能够解决以往社区边界模糊的问题,使得所挖掘的社区唯一,所以可以把该技术应用到图的划分问题上。本文提出了使用Web社区的等级的相等关系来划分Web网页,其中两个网页相等当且仅当它们同属于同一个Web社区;还提出了层次化划分,重复对压缩图进行划分,即把属于同一划分的点集压缩成一个点。最后,本文还利用Web抓取器和开放源代码的lucene全文检索部件构造了简单的Web社区搜索引擎系统,提供了按照相关度对结果进行排序、对搜索结果进行分组等功能。
其他文献
当前语义Web在Web技术领域已成为一个研究热点,语义Web不是一种全新的Web,而是对当前Web的扩展,其中的信息被赋予明确的含义,使机器和人能更好的协同工作。Web上的信息是用结构化
下一代网络是业务驱动的网络,Parlay应用服务器作为下一代网络业务层的核心设备,需要为种类繁多的个性化、智能化业务逻辑提供了稳定高效的运行环境,同时也需具备电信级的可靠性
随着互联网技术的迅猛发展,大规模的数据也随之产生,传统的数据存储方式和处理方式已经不能满足海量数据对存储和处理的需求。云计算平台的出现,则为海量数据的存储和处理提
随着面向对象技术的发展,软件的需求变得越来越复杂,软件不但要求在时间维上的可变性,也要求在空间上的可伸缩性,这就要求软件具有更好的结构。另一方面,随着越来越多优秀的
虚拟机迁移技术作为云计算领域的重要分支成为近年来研究的热点,通过对虚拟机的动态分配,实现服务器间的负载均衡、保证云应用的服务质量。虚拟化技术一方面解决了对物理资源
随着多媒体网络应用数据流在Internet中的增加,使Interact的“尽其所能”的服务难以满足新数据流的服务质量的需求,成为Internet面临的一大挑战;加上单根光纤的通信速率有多
近年来,人们认识到在一些应用中数据不是形成持久性的关系模型而是表现为一种瞬时的数据流。诸如此类的应用有很多,例如,金融,生产制造,网络管理,安全,通信数据管理,web应用,
随着网络和其它信息技术的广泛应用,网络系统的安全变得至关重要。入侵检测是目前保护网络系统安全的关键技术和重要手段,成为了网络安全体系结构的重要课题之一。现行的入侵检
本文对IP多媒体子系统归属用户服务器的实现进行了研究。文章分为七个部分: 第一章,介绍本文工作的背景以及主要内容; 第二章,概述IMS主要思想,包括网络结构、特性、功能及
近年来,越来越多的关联数据被发布到网上而逐渐形成了一个全球分布式的数据空间,但由于这个数据空间的分布式特性和开放性,对关联数据的查询面临着各种各样的挑战,如何有效的