【摘 要】
:
随着“互联网+”的走热,各行各业都与互联网紧密的结合了起来,随之产生了海量的数据信息,尽管面对如此多的数据信息,但人们想真正找到自己感兴趣的内容也是件难事。同时互联
论文部分内容阅读
随着“互联网+”的走热,各行各业都与互联网紧密的结合了起来,随之产生了海量的数据信息,尽管面对如此多的数据信息,但人们想真正找到自己感兴趣的内容也是件难事。同时互联网企业绞尽脑汁分析用户兴趣,为用户提供更好的产品、更好的服务,日志数据记录了用户的行为,基于此,如何分析挖掘互联网产品产生的海量日志数据变得非常重要。在目前数据挖掘的研究中,关联规则的挖掘是非常重要的研究方向,关联规则涉及到信息、医疗、交通、金融等多个领域的研究。在关联规则的挖掘算法中,由R.Agrawal和R.Srikant于1994年提出的Apriori算法最为经典和重要,算法的核心思想是通过迭代由k-1轮的频繁项集连接剪枝生成K轮的频繁项集。本课题主要对用户海量数据处理算法Apriori进行研究,其中主要包括以下几个研究内容:(1)关联规则算法在日志数据挖掘中的应用。该研究采集了视频APP用户的浏览、观看、检索日志数据,提出数据挖掘的流程框图,并基于Apriori算法得出视频作品之间的关联度,根据作品关联程度为用户推荐合适的视频作品。(2)Apriori算法改进的研究。Apriori算法在处理日志数据时由于频繁的扫库和生成大量的频繁项集而使时间性能较低,本研究在大量优化研究的基础上,提出对源数据、频繁项集进行二进制编码并用整数表示,通过位运算和海明距离生成频繁项集的优化策略。我们将优化策略编程实现,并分析了优化的效果。(3)优化的Apriori算法在MapReduce并行化编程模型下的扩展。面对海量日志数据,单机计算能力远不能满足大数据挖掘的需求了,本课题通过研究并行化编程模型MapReduce,将优化的Apriori算法在MapReduce下进行并行化扩展。
其他文献
本文对高氮奥氏体不锈钢中组织状态及氮含量影响材料性能的机制进行了系统研究。基于Mn18Cr18N及0Cr21Ni6Mn9N两系高氮钢,通过系列热处理实验对微观组织进行了控制,研究了组织
采用超声波辅助皂化法提取枸杞皮渣中类胡萝卜素,以类胡萝卜素的提取量为评价指标,在单因素试验的基础上,采用Box-Behnken试验设计和响应面法分析考察了4个因素对类胡萝卜素
参照文献报道的方法建立了测定细胞神经酰胺的激酶催化法 ,以该法所做的标准曲线在一定浓度范围内有很好的线性关系。以UVB照射NIH3T3细胞 ,可以使细胞神经酰胺的水平在1分钟
在全球治理的语境下,执法程序公正是实现善治和国际法治的必然要求。WTO体制中对成员方执法程序公正标准的规范体现在以GATT1994第10.3(a)条、GATS第6.1条等为代表的条款集合。
目的观察对妊娠晚期并发急性胰腺炎患者剖宫术中进行腹腔镜胰腺探查引流术治疗的效果。方法回顾性分析2016年4月至2017年6月本院收治的18例妊娠晚期并发急性胰腺炎患者资料,
大学生志愿服务活动对于中华民族而言,是一种传统意义上的美德体现,更是在新时期的一种传承和扩展。该类活动的积极开展,不仅能够更好地建设校园精神文明,更能够帮助大学生在
高等教育体系是一个分层有序的复杂性系统,不同的部分承担着不同的社会职能。学术性本科教育作为高等教育生态环境中不可或缺的必要组成部分,始终肩负着本科学术性人才培养的
当今社会许多大学生缺乏学习的主动性,尽管他们的业余时间比较丰富,但很少有人会用来学习,这为网络教学的引入提供了契机。为了让学生充分的利用他们的业余时间进行学习,我们
高等院校音乐表演专业的艺术指导课是一门新型的综合性较强的技能指导课,是以钢琴为声乐演唱伴奏的技术指导课。目前,我国已有一些音乐类院校把艺术指导课设置成专业课程。艺
课程考核是指为了实现特定的培养目标而对某一门具体课程中学生的学习过程和结果进行评价以检验其学习效果的一种方法。课程考核是教学过程的一个重要环节,由于考核本身具有