Spark框架相关论文
传统增量算法主要侧重于从更新近似的角度进行属性约简,但在处理大规模数据集时需要评估所有属性并反复计算重要度,提升时间复杂度,降......
为减少医疗数据挖掘的运算时间,提高医院数据整合效率,提出一个基于人工智能的医院数据整合方案。首先,在等价类转换Eclat算法的基础......
随着新媒体和互联网等行业的迅速发展,产生的数据越来越多,在大数据环境下快速高效地完成数据挖掘是当下的热点问题。关联规则挖掘......
文章针对频繁项集挖掘中传统串行Eclat算法面对海量数据时挖掘效率不高的问题,提出一种海量数据下的并行频繁项集挖掘算法,即I-SPEcl......
大数据时代背景下,基于Hadoop平台构建的电商推荐系统面临数据处理效率低下、难以根据用户实时行为进行推荐的问题。针对Hadoop平台......
为解决在大数据环境下,网络信息快速膨胀导致的“信息过载”问题,即用户无法从海量信息中快速准确获取有用信息。提出在基于Scala语......
地震往往会造成十分严重的人员伤亡和财产损失,如能对已知地震数据进行系统的分析和研究,并从中找出一些规律,就能尽早地采取一些防震......
针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并......
随着人们生活水平的不断提高,国内机动车保有量持续上升,机动车辆已成为民众的主要出行交通工具之一。与此同时,与车辆相关的违法......
传统邻域分类器因良好的分类性能在分类问题中得到广泛应用。但数据规模和维度的不断增加,提高了邻域分类器的处理难度。为解决这......
本体可以用来实现某种程度的知识共享和重用。不同的本体语言具有不同的表达能力,能够不同程度的蕴含语义信息。使用相应的推理机,......
随着互联网的快速发展,人们已经从信息匮乏时代进入了大数据时代,和搜索引擎一样,个性化推荐系统也是一种帮助用户在信息过载的情......
随着互联网的飞速发展,社会进入了一个数据爆炸的时代。这些数据蕴含着大量的价值,如何从这些海量数据中挖掘出有价值的信息成为了......
风力发电是近几年大力发展的新可再生能源。是一种有效的降低发电成本,减少环境污染的新能源,能够很好的并入国网使用。保证风电机组......
相似性连接是数据挖掘分析领域的基础操作,在数据清洗、生物信息学和信息集成等众多领域有着广泛的应用意义。相似性连接处理的数......
伴随着数据时代的到来,网络用户每天需要接收无数不同类别的信息,面临从海量信息中选取所需信息的困扰,这时推荐系统应运而生。在......
时态数据是无处不在的,现如今海量的时态数据正在被生成。海量时态数据的管理非常重要,并且具有挑战性。面对海量的时态数据,分布......
随着信息时代的发展,现实社会的数据正快速增多,如何快速处理这些数据并从这些数据中分析挖掘价值已经成了现实世界的迫切需求。越......
作为一种重要的数据来源,视频数据具有体量巨大、产生速度极快、价值稀疏和完全非结构化等大数据的典型特征,是大数据技术研究的重......
近年来,基于网络的应用系统规模和数量呈现快速增长,应用系统的运行效率和适用性出现瓶颈。完善系统相关的业务流程和规则、提升系统......
目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一......

