论文部分内容阅读
面对互联网数据爆炸式的增长,传统单机处理方式已经慢慢落伍,新式的分布式并行处理日益成熟,将替代原有的处理方式。时下有关数据的海量处理和存储成为研究的热潮。在这其中,由Dong Cutting等人开发的Hadoop平台脱颖而出,成为分布式处理的宠儿。Hadoop基础分布式架构主要由HDFS分布式文件系统和MapReduce计算模型组成。HDFS主要负责海量数据的存储,而MapReduce主要负责在海量数据上的计算。传统的日志处理一般都采用单机式的shell脚本处理,在面对今天海量数据处理中有些力不从心。而随着互联网社交网络的发展,社交人际关系的处理也成为当今互联网研究的热点。本文针对社交网络的海量日志处理,由传统shell处理方式,转向的Hadoop平台下的MapReduce处理方式。提供更加快速的处理速度,更方便、快捷和人性化的处理界面,以及更加细致分析功能。并在此基础上,应用和改进单源最短路径Dijkstra算法,将其分布式化,利用它分析社交网络中的人际关系。在实验部分,通过搭建1个4台机器小集群,对比shell脚本处理,验证了hadoop在海量日志处理方面的优势。同时利用分布式Dijkstra算法,分析了陌生人之间的人际关系。最后本文还针对Hadoop平台运行作业提出了一些配置参数优化方式,这些参数都是通过对Hadoop源码的分析以及在大量作业运行的基础上分析获得的。