海量数据处理技术研究与应用

来源 :厦门大学 | 被引量 : 0次 | 上传用户:xmg11860
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
论文主要是致力于海量数据处理技术的研究与应用,涉及到相关的海量数据存储、海量数据文件系统、海量数据检索、海量数据运算、数据可信度方法验证反馈等内容。同时本论文深入地探讨与研究了日前互联网最为热门及最具发展潜力的SNS网络,比如社交网络、微博等,并将相关的海量数据处理技术应用到SNS网络的热门话题生成系统中。   首先,论文对目前较流行的相关海量数据处理技术与关键算法进行深入的探讨与研究,涉及到Key-value分布式存储的研究,Google Bigtable数据模型的研究,Google GFS分布式系统原理的研究,Google MapReduce编程模型的深入研究,以及基于以上技术而实现的优秀的开源Hadoop海量数据处理系统框架的研究。   其次,论文还提出了一种改进的可信度方法模型,并通过严格的数学推理证明改进算法的适用性、同步单调性及合理性。通过改进的可信度分析方法,可以用来验证及计算海量数据处理结果可信度的定量值,并反馈于海量数据处理系统,辅助其相关处理算法的改进。改进的可信度方法用于海量数据处理的验证过程中,一方面克服了传统可信度方法的一些缺陷(比如在某些情况下出现CF值与条件概率值相矛盾的问题);另一方面,在海量数据处理的某些特定的应用,其对于相关的算法调整有很好的反馈作用。   最后,论文还完成了一个基于海量数据处理的微博热门话题生成系统。通过海量数据处理的相关技术,以及编写相关的MapReduce算法,对原始的海量微博博文数据进行分布式处理,并对生成结果数据的可信度方法分析。实验表明,其可以较为高效的生成相关的热门话题排行榜信息,本系统框架不仅仅可以应用于微博平台,也可以应用到其它的SNS海量即时信息处理系统中,比如社交网络热门话题推荐等等。  
其他文献
随着网络技术的飞速发展,特别是大量多媒体实时音/视频业务的广泛应用发展,对传统以TCP协议为主的传输提出了新的挑战。TCP拥塞控制使用的AIMD策略,会引起速率很大的抖动,不适
运动目标检测是计算机视觉研究领域的重要课题,在智能交通、机器人视觉导航、智能监控、军事等领域有着广泛应用。运动目标的检测、特征提取和识别,是视频监控的关键,其中目
随着互联网的快速发展,SNS网站的兴起,人们越来越多地通过网络进行沟通、交流以及形成人际关系,由此产生了大量的用户数据。如何从海量的用户数据中取得更深层次的有用信息,
签名识别是一项古老的身份认证技术,但在现代计算机技术的发展下又焕发了新的生命力,利用模式识别理论对签名进行分析是现今研究的一个热点。一般的签名识别方法分为两种:在
钢铁产业是推动我国国民经济的一个重要支柱产业,钢铁物流直接影响着钢铁产业的发展状况。随着钢铁产能的不断提升和交通手段的多样化,仓储成为了钢铁物流的瓶颈之一。仓储公司
随着网络技术和多媒体技术的飞速发展,视频点播服务的应用越来越广泛,已成为信息服务中的重要组成部分。另一方面,嵌入式技术的不断进步,也使得人们可以根据个人需要随时随地
随着计算机应用范围的日益扩大,数据库技术和挖掘技术的的不断发展,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。关联规则挖掘作为数
数学知识管理是模式识别与人工智能领域的重点问题,在网络搜索、知识管理、数字化图书馆、教育现代化领域有着极为广泛的应用前景,数学公式作为数学知识的主要表现形式,对其进行
现在人们越来越依赖于使用如手机、平板电脑等手持设备来连接互联网来获取和处理自己所需要的信息。这就要求手机能像PC机那样能运行应用软件和程序。Android智能手机操作系
视景仿真技术是虚拟现实技术的重要研究内容,其旨在为用户提供具备逼真视景和实时交互性的富有沉浸感的虚拟环境。视景仿真技术的高效、安全、经济的特点使得其在各领域得到