Spark框架相关论文
传统增量算法主要侧重于从更新近似的角度进行属性约简,但在处理大规模数据集时需要评估所有属性并反复计算重要度,提升时间复杂度,降......
为减少医疗数据挖掘的运算时间,提高医院数据整合效率,提出一个基于人工智能的医院数据整合方案。首先,在等价类转换Eclat算法的基础......
随着新媒体和互联网等行业的迅速发展,产生的数据越来越多,在大数据环境下快速高效地完成数据挖掘是当下的热点问题。关联规则挖掘......
文章针对频繁项集挖掘中传统串行Eclat算法面对海量数据时挖掘效率不高的问题,提出一种海量数据下的并行频繁项集挖掘算法,即I-SPEcl......
大数据时代背景下,基于Hadoop平台构建的电商推荐系统面临数据处理效率低下、难以根据用户实时行为进行推荐的问题。针对Hadoop平台......
为解决在大数据环境下,网络信息快速膨胀导致的“信息过载”问题,即用户无法从海量信息中快速准确获取有用信息。提出在基于Scala语......
地震往往会造成十分严重的人员伤亡和财产损失,如能对已知地震数据进行系统的分析和研究,并从中找出一些规律,就能尽早地采取一些防震......
针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并......
随着人们生活水平的不断提高,国内机动车保有量持续上升,机动车辆已成为民众的主要出行交通工具之一。与此同时,与车辆相关的违法......
传统邻域分类器因良好的分类性能在分类问题中得到广泛应用。但数据规模和维度的不断增加,提高了邻域分类器的处理难度。为解决这......
本体可以用来实现某种程度的知识共享和重用。不同的本体语言具有不同的表达能力,能够不同程度的蕴含语义信息。使用相应的推理机,......
随着互联网的快速发展,人们已经从信息匮乏时代进入了大数据时代,和搜索引擎一样,个性化推荐系统也是一种帮助用户在信息过载的情......
随着互联网的飞速发展,社会进入了一个数据爆炸的时代。这些数据蕴含着大量的价值,如何从这些海量数据中挖掘出有价值的信息成为了......
风力发电是近几年大力发展的新可再生能源。是一种有效的降低发电成本,减少环境污染的新能源,能够很好的并入国网使用。保证风电机组......
相似性连接是数据挖掘分析领域的基础操作,在数据清洗、生物信息学和信息集成等众多领域有着广泛的应用意义。相似性连接处理的数......
伴随着数据时代的到来,网络用户每天需要接收无数不同类别的信息,面临从海量信息中选取所需信息的困扰,这时推荐系统应运而生。在......
时态数据是无处不在的,现如今海量的时态数据正在被生成。海量时态数据的管理非常重要,并且具有挑战性。面对海量的时态数据,分布......
随着信息时代的发展,现实社会的数据正快速增多,如何快速处理这些数据并从这些数据中分析挖掘价值已经成了现实世界的迫切需求。越......
作为一种重要的数据来源,视频数据具有体量巨大、产生速度极快、价值稀疏和完全非结构化等大数据的典型特征,是大数据技术研究的重......
针对传统文献推荐过程中易于发生文献查找困难、文献浏览迷失等问题,基于大数据特征,利用内存计算中Spark系统框架高的容错机制和......
近年来,基于网络的应用系统规模和数量呈现快速增长,应用系统的运行效率和适用性出现瓶颈。完善系统相关的业务流程和规则、提升系统......
目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一......
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务......
随着电力体制改革的不断深入以及大数据技术的发展,传统的供电公司和综合能源服务企业急需改善现有的粗放型营销模式,实现不同用户......
摘要:随着Android恶意软件的数量越来越多,寻求有效的恶意软件检测方法显得越来越重要。针对Android手机恶意软件检测的现状,文章根据......
别大规模数据的潜在模式.但其存在两个问题:多次迭代Master和Worker节点间数据交换,导致算法运行效率低;对初始聚类中心敏感,导致......
摘要:校园内共享单车被破坏和挥霍助学金的情况屡见不鲜,既不利于大学生自身的健康成长,也给社会造成了负面影响。基于大数据技术构建......
研究海量数据基础上高速公路流量预测建模问题,提出了一种基于ARIMA-BPNN的混合预测模型,并建立基于Spark的分布式处理平台。建立A......
框架扰动理论是框架研究中的一个活跃分支,本文针对FullSpark框架的扰动问题,首先研究了框架的扰动性质,并说明框架与FullSpark框架区......
频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘......
目前处理时态大数据连接操作多数运用分布式系统,但现有的分布式系统尚不能支持原生的时态连接查询,无法满足时态大数据低延迟和高......
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于......
现有并行FP-Growth算法在挖掘项之间具有层次关系的事务数据时存在冗余项集大、效率低的缺点。针对上述问题,提出一种基于Spark的......
逻辑回归和线性支持向量机是解决大规模分类问题的有效方法,然而它们的分布式实现问题到现在也没有得到更好的研究.近年来,由于分......
网络评论指的是线上平台中对某个(类)实体或非实体的主观性描述。如今,网络评论的热点发现已成为人工智能领域在文本评论价值挖掘......
本文在阐述现阶段电商大数据应用模式的基础上,从人工智能角度出发,就电商大数据分类与挖掘算法展开分析。研究指出:除递归效率低......
随着时代的进步和发展,数据对我们来说越来越重要。大数据的到来创新了计算机和其他行业的技术,将我们带入了大数据的时代。由于电......
地震波形数据的分析应用是国家地震数据灾备中心未来可做内容之一。从大数据平台的角度,介绍地震波形数据的基本情况和灾备中心业......
针对病虫草害大数据的存储分散和展示无系统化的问题,提出采用Spark核心技术搭建大规模集群,将HDFS(Hadoop distributed file syst......
提出一种Spark框架下自适应布谷鸟搜索(self-adaptive cuckoo search,SACS)和引力搜索(Gravitational Search,GS)算法的混合SACS-G......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
目前,经过国内外专家和学者长时间的应用与研究,协同过滤推荐算法的优势日益明显,并且逐步成为推荐系统的主流算法。新兴的计算框......
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们......
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文......
随着高校扩招,应届毕业生人数逐年增长,就业压力不容小觑。针对就业难的问题,进行招聘网站数据分析,挖掘出岗位所需技能,再结合学......
从日志信息采集、处理、存储等方面研究了分布式技术在日志处理平台的应用。使用Flume进行采集历史数据以及实时日志数据,并将收集......