基于BV算法的Web Graph压缩问题的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zcysun618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中的网页及其超链接可建模为一个庞大的有向图,称为Web Graph。Web Graph的分析研究可应用于网页排名、检测网络垃圾信息、发现社区和镜像站点等。然而,这项研究受阻于需要把巨大的图存储到外存上,从而影响有效地随机访问结点。因此,把Web Graph压缩存储到内存的研究具有十分重要的意义。Web Graph具有本地性和相似性,且服从幂律分布。BV算法采用Zeta-k编码,是最有效的Web Graph压缩方案之一。基于BV算法,本文提出了两种改进的Web Graph压缩算法:近似最优引用序列的压缩算法和合并最优引用序列的压缩算法。二者均采用引用压缩,其关键是选取最优引用序列。不同的是,前者不再局限于滑动窗口内部,可以实现沿着结点的引用链回溯搜索近似全局的最优引用序列;后者则是通过合并固定数目的结点生成块结点,用来作为块内结点的最优引用序列。本文选用五组测试数据分别对三种压缩算法进行测试。主要的测试内容包括两个基本点:存储每条链接所用的比特位和随机访问每个结点所用的时间。最后,通过比较和分析三种算法的实验结果,表明改进后的方法提高了压缩效果,而且缩短了结点引用链的长度,提高了随机访问结点的效率。
其他文献
目前,基于网格技术的分布式计算已经在高性能科学计算和Internet商业应用中获得了很大的发展。伴随着对分布式计算需求的增长,国内外网格技术的研究重点从传统的集群计算转向
我们现在使用的互联网协议为版本4,即IPv4,地址采用了 32 位结构,意味着有大约40亿个地址。尽管我们利用CIDR (Classless Inter-Domain.Routing)允许以可变长分界的方式分配网络
对于异构数据集成的应用研究,随着计算机应用的迅速发展和企业应用需求的不断提升,已逐步成为当前计算机应用研究的一个热点。 本文在分析、比较若干原型系统优缺点的基础上
随着网络,电信和传感器技术的发展,数据采取的是多维的、连续的、随时间快速变化的流式数据的形式,数据流理论与技术成为数据库研究的一个新领域。如何在连续快速的数据流上
多视图特征造型是由近期的工程学和特征造型组合而成的,作为一种集成化的特征造型,它被引入产品设计发展中,是一种新的方法,这种方法能在较短的时间内产生更高质量的产品,所
随着现代通信技术的迅猛发展,因特网已成为人们快速获得各种服务的主要手段之一。但随着人们对各种服务需求量的上升,地面internet的带宽瓶颈问题已急待解决,通过各种可能的通信
电力企业信息化建设的不断发展对企业部门级、业务级的融合提出了较高的要求,为保证向前兼容、软件复用和资源投入的节约,加速系统问的应用集成已成为必要的技术手段。在当前的电力企业内部网络中,一般存在着由多个硬件厂商、软件厂商,在不同时期、为不同的业务开发的指向性明确,业务类型相对单一的产品。而随着用户类别、用户需求的不断多样化,不同系统的数据资源需要不同程度的共享或交互,业务需求的进一步增多将导致电力企
随着科学技术的迅速发展,机器人也不再仅局限于生产和科研领域,开始应用于人们的日常生活中。清扫机器人可替代人们从事高度重复性的工作,适用于恶劣、枯燥和危险等环境,有着广阔
无线局域网是20世纪90年代计算机网络和无线通信技术相结合的产物,它使用无线信道来接入网络,为通信的移动化、个人化和多媒体应用提供了潜在的手段,并成为宽带无线接入的有
随着当今网络规模和性能迅速增长,Internet主于网络流量的指数性增长,新业务接连出现,这就要求网络设备具有线速和智能的处理能力。网络处理器(NP)便是一种新兴、有效的统一解决