Jackrabbit封装Hadoop的研究及在内容管理系统中的应用

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:ApexLiuNck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文以目前计算机科学与技术领域广泛讨论和应用的分布式存储、分布式计算和内容仓库标准接口为背景,结合内容管理系统项目,研究如何用Java内容仓库封装分布式文件系统,实现海量数据的存储与计算,并实际应用到内容管理系统中去。以Jackrabbit作为Java内容仓库的实现,对外暴露统一标准接口,屏蔽底层存储;存储层用Hadoop Distributed File System(HDFS)来存取数据,HDFS作为Hadoop的一部分,是一种分布式文件系统,google DFS的Java实现。为了解决HDFS处理小文件能力不佳的问题,引入HBase来存取小文件,HBase也是Hadoop的一部分,是一种分布式表结构,google Big Table的Java实现。通过一系列测试来确定大小文件的分界点,以使系统的存储性能趋近于最佳。封装后的系统经过性能测试,改进了原存储系统存储小文件性能较低的情况。分布式计算框架采用MapReduce, MapReduce是Hadoop的一部分,google MapReduce的Java实现,是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。Jackrabbit封装MapReduce,实时获取内容仓库中的内容,对数据进行预处理,成为内容管理系统与精准分析平台的衔接纽带。本文围绕封装的实现及其在内容管理系统中的应用进行论述。第一章介绍了内容管理系统、精准分析平台,内容仓库标准接口等,说明了本文的来源和背景。第二章对Jackrabbit封装Hadoop的实现进行了全方位的解析,分别是Jackrabbit对HDFS和HBase的封装以及Jackrabbit对MapReduce的封装。第三章阐述了封装后的应用,分别是在内容管理系统中的应用和精准分析平台中的应用。最后一章对封装的下一步工作进行了介绍,并对封装之后的更丰富的应用进行了展望。
其他文献
随着互联网的迅猛发展,人们对数据传输系统的容量和性能提出了更高的要求。在全球电力资源日趋紧俏的今天,如何在满足用户不断激增的带宽需求同时,尽可能降低网络能量消耗已
传统集中式的电信网面临着集中式模式带来的问题。P2P技术可以充分利用网络资源,提高系统的伸缩性,解决传统模式中的“单点故障”、“性能瓶颈”等问题,目前在互联网领域得到
随着移动互联网的发展,企业移动化办公的需求日益突出,越来越多的企业开始将业务拓展到移动终端,力求走上全面信息化的道路。而信息移动发布平台可以使用户通过无线终端方便
电信运营商都拥有各自的运维支撑系统,随着时间的积累、通信系统规模的日益庞大,业务数据、用户数据都会不断积累增加,并且增长十分迅速。怎样从海量的数据中高效地获取我们
要成功设计、控制和管理网络,为用户提供应有的服务质量,就需要了解和掌握网络的内部特性。流量矩阵作为网络流量工程的重要参数,可以为网络规划、拥塞控制、流量异常检测、
随着计算机和通信技术的不断发展,Internet已经成为当今社会生存与发展必不可少的重要资源。随着网络的演进,在以IP电话、在线购物、视频会议等为代表的实时应用日益繁荣的同
近年来,伴随着互联网技术的不断发展,基于Web的各种应用也越来越得到了人们的重视。将Web技术与数据库技术相融合,使数据库成为Web的重要组成部分的Web数据库已经成为目前数