大数据集相关论文
动态数据库关联挖掘方法存在挖掘时运行时间长、内存使用量大、各节点任务分布不均等问题,因而提出了基于大数据集的动态数据库关......
大数据集全比较是一种特殊的计算问题,对数据集中的任意两个数据进行比较计算,广泛存在于生物信息学,生物计量学,数据挖掘等领域。基于......
许多针对大数据集的建模过程中都需要使用迭代算法,比如数据挖掘,网页排序,和社交网络的分析等等。类似这样的迭代应用一般都需要......
流程工业的数据挖掘和知识发现是一个非常复杂但很有研究价值的领域。流程工业的内部环节每天都在产生并储存着大量的运行数据,这......
大数据时代,互联网每天都会产生大量的数据,利用数据挖掘算法可以从中分析出有价值的数据。在聚类分析方法中,K-means聚类算法是应......
社区发现,是指在社会网络中发现有用社区结构的过程。随着科技的发展,社会网络以多种形式影响着现实世界中各个领域的方方面面,如朋友......
MapReduce是Google开发的一种并行分布式计算模型,已在搜索和处理海量数据领域得到了广泛的应用,Hadoop是它的开源实现。MapReduce编......
聚类是一种常用的数据挖掘算法,它通过将数据划分为多个不同的集群,同一个集群中的元素相识度较高,而不同集群中的元素相似度较低,......
众所周知,对基因表达调控机制的揭示和基因调控网络的建立是生物信息学领域的艰巨任务,而且至今难以完成。识别调控元素对于理解和......
一、大数据时代给采购和供应链带来的挑战和机遇1.大数据时代及其特征大数据(Big Data)是指所涉及的规模巨大的数据。随着时代的不......
<正>当前,大数据已经上升为国家战略的高度,成为推动经济社会发展的重要引擎。2015年12月18日,北京市供销合作总利社在北京中关村......
大规模三维地形可视化技术作为计算机图形学领域研究的热点课题之一,在地理信息系统、虚拟现实、航空航天等领域有着广泛的应用。......
随着经济的蓬勃发展,特别是互联网的普及,电子商务行业迅速崛起,网上购物逐渐成为了一种时尚和未来发展的趋势。然而,随着网上信息......
大数据指的是那些只能通过日益尖端复杂的工具进行处理和分析的大数据集.即使我们只关注以客户为导向的数据,其数据范围也几乎不会......
聚类的根本在于对数据的划分与集合,数据可通过聚类算法对象的相似性与不同合集中对象的区别性来进行数据记录.近年来,由于数据库......
继云计算、物联网之后,大数据集战略资源和创新驱动双重身份于一身,备受各国政府、企业和研究机构重视和青睐。“互联网+”行动计划的......
大数据时代的到来给数据挖掘和知识发现带来了很大的挑战。簸箕是一种大家熟知的农用工具,能快速将不同的物体分开。基于簸箕的工作......
为了克服现有决策树分类算法在大数据集上的有效性和可伸缩性的局限,提出一种新的基于粗糙集理论的决策树算法。首先提出基于代表......
随着业务系统云化改造的实施,监控节点会成倍的增长,网管系统必须满足海量资源与信息的监控与处理要求。早期的架构存在单点隐患、资......
针对目前关联规则挖掘的数据集不断增大,而很多抽样算法精度不高还要解决一系列NP难问题等情况。在分析利用频繁1项集进行抽样处理......
分类是数据挖掘中最重要的技术之一,而且应用领域非常广泛,但面对新出现的海量数据,目前已有的许多分类算法不具备良好的伸缩性,不能从......
互联网、移动互联网、物联网等新一代信息技术在工业领域的应用,催生了工业大数据的快速发展,也为"数据驱动的工业升级"奠定了扎实的......
在数据挖掘中,我们经常会遇到和分析大量具有数值和类属特征的数据.然而,现有的大多数分类算法只能单独处理数值特征数据或类属特......
增量聚类算法可以解决数据量大、内存不足的问题.传统的增量式模糊聚类(incremental multiple medoids based fuzzy clustering,IM......
针对回归问题中存在采集数据不完整而导致预测性能降低的情况,根据支撑向量回归机(suppon vector regression,简称SVR)等价于中心约束......
北京2015年12月22日电/--企业级基础云服务商青云Qing Cloud日前宣布,基于Hadoop的大数据集群服务现已正式推出。该服务包括三大核......
在传统统计分析工具无法直接对原始数据进行建模分析的前提下,利用大数据工具对原始数据进行提取、转换和加载(ETL),再通过统计分......
针对SVM在对大规模数据分类时求解规模过大的问题,提出了一种缩减数据集以提高训练速度的方法。该算法的第一步利用基于密度的方法......
针对大数据集数据挖掘的内存瓶颈问题,本文提出了一种基于磁盘表存储FPTREE的挖掘算法DTRFP_GROWTH(Disk Table Resident Fptree Gr......
本文通过吸取半监督聚类思想,提出了一种基于标记集指导的半监督聚类算法,利用驻留内存的labels集指导聚类过程,以满足大数据环境......
Hadoop是如今大数据革命的代表性技术,做Hadoop相关产品有很多,其中有很多不一样的选择和变种,比较知名的有Cloudera、Hortonwork、亚......
以往提出的面向大数据集的递增聚类方法直接将多维度的大数据集转换成一维大数据集,导致聚类成果不佳,故提出面向大数据集的递增聚类......
传统microRNA聚类算法对数据的新特征要求较高,未全面分析大数据集内的冗余特征,使得聚类结果均衡性差。因此,提出大数据集合中冗......
本文从理论上对规则大数据集的乱序方法及产生指定区域完全随机数进行了较深入的探讨,给出了在不同应用条件下多种解决方案,同时在......
针对基于基因表达式编程的K均值聚类算法(GEP_K均值)中聚类中心生成和适应度评价环节的计算效率较低的问题,提出一种基于MapReduce框......
随着互联网技术的发展,自2009年开始全球数据量每年增长50%,每两年数据量翻倍,目前世界上90%以上的数据是在最近几年产生的。海量......
针对现有挖掘方法存在运行效率低下与精准度受限的问题,提出基于粒度计算的大数据集频繁项挖掘方法。通过分析大数据集中数据流的......
全国首个供热行业大数据中心即将落户承德。3月6日,承德市政府与北京热力集团、北京供销大数据集团签署战略合作协议,共同建设"承德......
针对谱聚类存在计算瓶颈的问题,提出了一种快速的集成算法,称为间接谱聚类。它首先运用K-Means算法对数据集进行过分聚类,然后把每......
摘 要:Apriori算法是经典的挖掘频繁项集和关联规则的数据挖掘算法。本文通过实例使用Python语言将Apriori算法用到电影推荐上,从大......
在统计和机器学习等领域,参数估计是一类值得研究的问题,广泛采取通过对目标函数进行优化的思想。然而,随着计算机的出现和信息时......
将高维的大数据集随机分成若干个子集,对每个子集聚类采用一种基于遗传算法的高维数据模糊聚类方法。该方法引入了一个模糊非相似矩......
为了探索利用高光谱高空间分辨率遥感数据进行湿地植被物种识别,笔者在分析6种湿地植被原反射光谱、二阶微分及连续统去除光谱的基......
为了提高径向基神经网络模型的分类精度和缩短收敛时间,提出了一种变基宽神经网络模型的构建算法,这种方法是在减聚类算法和K-mean......
正则化多任务学习(regularized multi-task learning,r MTL)方法及其扩展方法在理论研究及实际应用方面已经取得了较好的成果。然......
由于FCM算法中的初始值需要随机的设定,这种随机性不能保证每次都能达到全局最优,也就是说如果初始聚类中心的设置具有全局的特点,......
云计算、物联网、智能终端等等新技术在最近十年被研究了很多,这促使了大数据时代的来临。在大数据的时代背景下,推荐系统用户的数量......