基于Hadoop平台的海量数据处理应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:zhaoleiBCB
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对互联网数据爆炸式的增长,传统单机处理方式已经慢慢落伍,新式的分布式并行处理日益成熟,将替代原有的处理方式。时下有关数据的海量处理和存储成为研究的热潮。在这其中,由Dong Cutting等人开发的Hadoop平台脱颖而出,成为分布式处理的宠儿。Hadoop基础分布式架构主要由HDFS分布式文件系统和MapReduce计算模型组成。HDFS主要负责海量数据的存储,而MapReduce主要负责在海量数据上的计算。传统的日志处理一般都采用单机式的shell脚本处理,在面对今天海量数据处理中有些力不从心。而随着互联网社交网络的发展,社交人际关系的处理也成为当今互联网研究的热点。本文针对社交网络的海量日志处理,由传统shell处理方式,转向的Hadoop平台下的MapReduce处理方式。提供更加快速的处理速度,更方便、快捷和人性化的处理界面,以及更加细致分析功能。并在此基础上,应用和改进单源最短路径Dijkstra算法,将其分布式化,利用它分析社交网络中的人际关系。在实验部分,通过搭建1个4台机器小集群,对比shell脚本处理,验证了hadoop在海量日志处理方面的优势。同时利用分布式Dijkstra算法,分析了陌生人之间的人际关系。最后本文还针对Hadoop平台运行作业提出了一些配置参数优化方式,这些参数都是通过对Hadoop源码的分析以及在大量作业运行的基础上分析获得的。
其他文献
随着我国社会经济的持续快速发展,人们对高品味生活的追求也不断地升级和发展。与此同时,服饰也不再是简单的御寒保暖的工具,进而发展成为某种生活方式、生活形态、社会归属
考古学证据表明,以西安、南京、荆州等地的古城墙为代表的中国古建筑固若金汤、完好存留至今的原因之一是其砖石结构中采用的石灰砂浆体系中含有糯米浆等天然有机物。这种传统
目的以接受21天化疗周期中重度癌痛患者为研究对象,通过观察患者治疗前、治疗后及随访期不同时点间期患者疼痛变化和阿片类药物应用情况,评价经皮穴位电刺激(TEAS)联合三阶梯
近几年,在国家安全生产监督管理总局推动下,我国各行业企业陆续开展了安全生产标准化建设活动,并取得了较大的成绩。烟草行业属于轻工业,发生较大事故的可能性较低。但受行业特点
<正>黑水虻(Hermetiaillucens L.),是一种腐生性的水虻科昆虫,能够取食禽畜粪便和生活垃圾,生产高价值的动物蛋白饲料,因其繁殖迅速,食性广泛、吸收转化率高,容易管理、饲养
劳动关系是劳动者与用人单位在实现劳动过程中建立的社会经济关系,经济体制改革、政策与法律的变化对其影响非常深刻。随着我国国有企业改革力度的加大、民营企业的迅速发展、