【摘 要】
:
如今的信息化世界中,人类越来越多的通过网络来获取信息资源和相互交流。近年来,各类门户网站和社交网站的访问量呈指数级增长,网络用户根据自己的需求查看不同的网页新闻和
论文部分内容阅读
如今的信息化世界中,人类越来越多的通过网络来获取信息资源和相互交流。近年来,各类门户网站和社交网站的访问量呈指数级增长,网络用户根据自己的需求查看不同的网页新闻和发表观点。对于大型网站例如新浪、搜狐,一天的访问数据信息能够达到TB级别。同时,在信息爆炸的今天,用户在面对海量信息时显得无所适从,网站决策者也难以为用户提供个性化的定制服务。因此,一种具有能够挖掘分析用户网络行为的系统变得非常有意义。然而,从TB甚至PB级别的用户访问信息数据中挖掘出用户的网络行为特点,需要高效并且可靠的的技术作为支撑。传统的数据分析系统,尤其是对文本类型数据进行分析的系统有着许多的问题,比如硬件要求高,能耗高,效率低等等。随着云计算和相关软件框架的不断发展,提供具有这些能力的系统平台已经成为可能。作为一种商业计算模型,云计算将任务分布在大量计算机组成的集群中,使其能够并行的处理,同时可以根据任务数据的量动态的分配集群资源。本论文利用云计算平台研究设计了一种用户网络行为挖掘分析系统。在众多云计算平台中,Hadoop是最被广泛使用的,HDFS和Map/Reduce分别作为分布式文件系统和计算框架。开源、可扩展、可靠性高是其最大优点。通过将任务分解成很多小任务执行并行处理得到各自的结果,然后将结果汇总得到最终结果。Hive作为Hadoop的数据仓库,可以提供类似于操作传统数据库的方式来操作Hadoop中的数据。Sqoop提供了快捷的方式将Hadoop集群中的数据传输到传统数据库中。本文利用上述云计算相关技术研究设计了一种用户网络行为分析挖掘系统。通过在linux系统上建立Hadoop集群,将用户访问日志信息上传到集群中,利用Hadoop的Map/Reduce计算框架和Hive对其进行多次挖掘,分析统计出网站的核心指标以及用户网络行为特点。使用sqoop将挖掘出的数据导出到传统数据库中,利用B/S架构的Web服务器访问传统数据库,呈现给网站决策者。本分主要研究内容包括了系统的核心模块的分析设计,日志关键指标的分析和数据处理,以及Map/Reduce和hive多次挖掘的设计与实现。
其他文献
首先,采用右手螺旋定则建立薄壁曲梁的坐标系,运用А. А. Уманский的闭口截面薄壁杆件约束扭转理论,确定任意形状截面的主扇性零点位置和剪切中心位置,推导出了薄壁曲梁
党的十九大报告中明确指出,要坚决打赢打好脱贫攻坚战,让贫困人口和贫困地区同全国一道全面进入小康社会。而当前,因病致贫、因病返贫是制约贫困人口稳定脱贫的一项重要影响因素。深入实施健康扶贫工程,对于保障贫困人口享有更高标准高质量高效率的医疗卫生健康服务,推动精准扶贫向纵深开展具有关键作用和重要的现实意义、历史意义,是实现贫困人口稳定脱贫必须坚决完成的重点任务。广东省揭阳市作为粤东西北欠发达重点地区之一
随着科学技术的进步和工业规模不断拓展,在排放废气中容易造成环境污染和各种危害;在矿业生产中易引发易燃易爆性气体,对人们的安全带来极大的危害;家庭在经过装修之后也容易
提升青海省农牧区基础教育质量的核心在于提高师资质量,青海农牧区师资重要来源是民族师范生,因此,民族师范生的培养质量是农牧区基础教育师资质量的重要保障,也是青海省农牧区基础教育的质量保障。此外,在我国高等教育从规模扩张为特征的外延式发展向质量提升为核心的内涵式发展转变的背景下,不断提升民族师范生的培养质量也是高校内涵式发展的必然要求。民族师范生的学习效果直接关系到民族师范生的培养质量。根据现代学习理
我国政府对医药产业高度重视,不断加大对医药行业的投资金额,使得我国从事医药产业的企业竞争力不断增强,在满足国内市场产品需求的基础上,逐渐将目标转移至国际市场,近些年,
刑事类推制度是指在刑法没有明文规定的情况下,以类比推理的方法和法律规定的程序,比照依附最相类似的刑罚条文,对一些刑事疑难案件进行出罪或者入罪的法律制度。在我国刑事比附类推制度起源于周秦时期,在汉唐时期得以发展,并被延续至明清时期,直至现代也曾规定过刑事类推制度。刑事类推制度之所以能够延续如此多年,其必有独特的法律功能。中华人民共和国第一部刑法即1979年刑法第七十九条明确规定了类推制度,但在199
随着计算机与网络技术的迅速发展,工作流软件受到越来越多企业、政府的重视。现在,工作流技术已成为企业、政府信息化建设方案中不可或缺的内容之一。从简单的办公自动化系统
近年来互联网技术发展迅猛,搜索引擎已成为人们最常用的网络应用之一。传统的集中式信息检索系统,已不能够充分应对网络信息量和检索需求量的爆炸式增长。基于分布式架构的联
随着科学技术的发展,高光谱成像技术越来越多地被用于农产品品质的检测中,并实现了农产品品质的空间预测。相比之前区域单一化学指标值,空间预测增加了空间维度信息,使得人们
相比普通活性污泥,好氧颗粒污泥具有密实的结构、较强的耐冲击负荷性能、较高的生物量、良好的沉降性能以及去除污染物的能力,因此受到国内外研究者的普遍关注。然而目前大部分关于好氧颗粒污泥的研究一直基于较高或者中等有机负荷污水,对低有机负荷条件下如何快速实现污泥颗粒化并保持稳定运行却鲜有报道。针对此现状,本文通过对好养氧颗粒污泥的形成和特性、对污染物的去除效果以及微生物群落结构的研究,揭示低有机负荷下不同