论文部分内容阅读
论文主要是致力于海量数据处理技术的研究与应用,涉及到相关的海量数据存储、海量数据文件系统、海量数据检索、海量数据运算、数据可信度方法验证反馈等内容。同时本论文深入地探讨与研究了日前互联网最为热门及最具发展潜力的SNS网络,比如社交网络、微博等,并将相关的海量数据处理技术应用到SNS网络的热门话题生成系统中。
首先,论文对目前较流行的相关海量数据处理技术与关键算法进行深入的探讨与研究,涉及到Key-value分布式存储的研究,Google Bigtable数据模型的研究,Google GFS分布式系统原理的研究,Google MapReduce编程模型的深入研究,以及基于以上技术而实现的优秀的开源Hadoop海量数据处理系统框架的研究。
其次,论文还提出了一种改进的可信度方法模型,并通过严格的数学推理证明改进算法的适用性、同步单调性及合理性。通过改进的可信度分析方法,可以用来验证及计算海量数据处理结果可信度的定量值,并反馈于海量数据处理系统,辅助其相关处理算法的改进。改进的可信度方法用于海量数据处理的验证过程中,一方面克服了传统可信度方法的一些缺陷(比如在某些情况下出现CF值与条件概率值相矛盾的问题);另一方面,在海量数据处理的某些特定的应用,其对于相关的算法调整有很好的反馈作用。
最后,论文还完成了一个基于海量数据处理的微博热门话题生成系统。通过海量数据处理的相关技术,以及编写相关的MapReduce算法,对原始的海量微博博文数据进行分布式处理,并对生成结果数据的可信度方法分析。实验表明,其可以较为高效的生成相关的热门话题排行榜信息,本系统框架不仅仅可以应用于微博平台,也可以应用到其它的SNS海量即时信息处理系统中,比如社交网络热门话题推荐等等。