Jackrabbit封装Hadoop的研究及在内容管理系统中的应用

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户：ApexLiuNck

【摘要】

：

论文以目前计算机科学与技术领域广泛讨论和应用的分布式存储、分布式计算和内容仓库标准接口为背景,结合内容管理系统项目,研究如何用Java内容仓库封装分布式文件系统,实现

【作者】

：

张烨

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2011年01期

【关键词】

：

分布式存储分布式计算 Java内容仓库标准接口内容管理系统精准分析平台

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

论文以目前计算机科学与技术领域广泛讨论和应用的分布式存储、分布式计算和内容仓库标准接口为背景,结合内容管理系统项目,研究如何用Java内容仓库封装分布式文件系统,实现海量数据的存储与计算,并实际应用到内容管理系统中去。以Jackrabbit作为Java内容仓库的实现,对外暴露统一标准接口,屏蔽底层存储;存储层用Hadoop Distributed File System(HDFS)来存取数据,HDFS作为Hadoop的一部分,是一种分布式文件系统,google DFS的Java实现。为了解决HDFS处理小文件能力不佳的问题,引入HBase来存取小文件,HBase也是Hadoop的一部分,是一种分布式表结构,google Big Table的Java实现。通过一系列测试来确定大小文件的分界点,以使系统的存储性能趋近于最佳。封装后的系统经过性能测试,改进了原存储系统存储小文件性能较低的情况。分布式计算框架采用MapReduce, MapReduce是Hadoop的一部分,google MapReduce的Java实现,是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。Jackrabbit封装MapReduce,实时获取内容仓库中的内容,对数据进行预处理,成为内容管理系统与精准分析平台的衔接纽带。本文围绕封装的实现及其在内容管理系统中的应用进行论述。第一章介绍了内容管理系统、精准分析平台,内容仓库标准接口等,说明了本文的来源和背景。第二章对Jackrabbit封装Hadoop的实现进行了全方位的解析,分别是Jackrabbit对HDFS和HBase的封装以及Jackrabbit对MapReduce的封装。第三章阐述了封装后的应用,分别是在内容管理系统中的应用和精准分析平台中的应用。最后一章对封装的下一步工作进行了介绍,并对封装之后的更丰富的应用进行了展望。

其他文献

多粒度传送网节能疏导机制的设计与仿真实现

随着互联网的迅猛发展,人们对数据传输系统的容量和性能提出了更高的要求。在全球电力资源日趋紧俏的今天,如何在满足用户不断激增的带宽需求同时,尽可能降低网络能量消耗已

学位

多粒度传送网节能业务量疏导拆分博弈

P2P流媒体直播仿真系统中叠加网构建策略的研究与实现

传统集中式的电信网面临着集中式模式带来的问题。P2P技术可以充分利用网络资源,提高系统的伸缩性,解决传统模式中的“单点故障”、“性能瓶颈”等问题,目前在互联网领域得到

学位

P2P流媒体直播系统叠加网构建仿真系统

基于J2ME技术的信息移动发布平台的设计与实现

随着移动互联网的发展,企业移动化办公的需求日益突出,越来越多的企业开始将业务拓展到移动终端,力求走上全面信息化的道路。而信息移动发布平台可以使用户通过无线终端方便

学位

移动互联网信息移动发布平台J2MEStrutsHibemate

Linux上UKey应用支持的关键技术分析与实现

随着互联网技术的发展与PKI技术的完善，UKey逐渐成为解决安全通信和身份认证问题的重要工具，在信息和系统安全领域都有较为广泛的应用。Windows的市场份额及其对PC/SC规范的制

学位

Linux系统UKey应用硬件框架层密码框架层

移动网络挖掘分析系统中ETL的研究与实现

电信运营商都拥有各自的运维支撑系统,随着时间的积累、通信系统规模的日益庞大,业务数据、用户数据都会不断积累增加,并且增长十分迅速。怎样从海量的数据中高效地获取我们

学位

网络挖掘数据库数据仓库网络优化ETL

过程蓝图逻辑层到实现层半自动生成转换技术的研究

自动程序设计是人工智能领域研究的一个重要分支。它通过对一个问题求解的规格说明自动或半自动地生成可执行程序，它涉及到人工智能领域的各个方面，包括自然语言理解、机器翻译

学位

自动程序设计过程蓝图建模半自动生成转换机器翻译受限汉语表达

基于附加链路信息的网络流量矩阵测算方法

要成功设计、控制和管理网络,为用户提供应有的服务质量,就需要了解和掌握网络的内部特性。流量矩阵作为网络流量工程的重要参数,可以为网络规划、拥塞控制、流量异常检测、

学位

流量矩阵测算流量工程网络层析成像最小化互信息量

OSPF路由自适应控制技术研究与系统开发

随着计算机和通信技术的不断发展,Internet已经成为当今社会生存与发展必不可少的重要资源。随着网络的演进,在以IP电话、在线购物、视频会议等为代表的实时应用日益繁荣的同

学位

路由策略网络生存性OSPF协议

基于Web的卫星信息数据库系统的研究与实现

近年来,伴随着互联网技术的不断发展,基于Web的各种应用也越来越得到了人们的重视。将Web技术与数据库技术相融合,使数据库成为Web的重要组成部分的Web数据库已经成为目前数

学位

Web数据库JSP连接池B/S模式

智能化电能量数据采集终端的设计与实现

电能量数据采集终端是在电能量计费系统中介于计量主站与费率装置(电能表)之间的中间设备，主要具有电能量数据采集、处理、存储、加工及转发等功能。设计出可以有效实现快速、

学位

电能量数据采集终端智能化设计设计规范Linux操作系统

Jackrabbit封装Hadoop的研究及在内容管理系统中的应用

其他学术论文