基于MapReduce的大数据主动学习

来源 :计算机应用 | 被引量 : 0次 | 上传用户:chuengwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Arti
其他文献
近年来由升温和氮沉降引起的全球气候变化对陆地生态系统的结构和功能造成极大影响,全球气候的变化会对森林生态系统的结构、物种、生产力以及森林类型分布等产生影响。苔藓植
本文首先通过对一般多项式的系统回顾,给出了对一般多项式的概念、性质及其应用的总结.主要内容包括:一般多项式插值的定义;一般多项式的各种类型的插值及其公式和数值积分公式.
"一带一路"的提出推动了陕西地区经济全面发展。融资是影响中小企业发展的重要因素,陕西地区中小企业要实现自身的发展就要看准这一契机,搭乘"一带一路"顺风车。利用好陕西"
目的评价导管接触性溶栓在下肢深静脉血栓形成并发肺动脉栓塞的临床应用价值方法选取我院血管外科在2014.09~2016.09收治的189例下肢深静脉血栓形成(DVT)患者,其中80例并发肺
以运输成本为基础建立了若干配送中心的选址模型,同时在模型的计算求解过程中考虑了配送中心运营可变成本。利用运输问题的表上作业法求解了模型中的线性函数部分,利用启发式
目的:本实验拟研发一类基于CD44核酸适配体、核仁素核酸适配体和DNA四面体的双靶向DNA纳米载药系统,并将阿霉素药物分子以嵌插结合的方式装载于DNA四面体上。然后,在体外细胞水平进一步评价上述构建的双靶向载药系统对黑色素瘤A375细胞的靶向性和有效性。方法:(1)PCR构建DNA纳米载药复合体;(2)将上述PCR构建的载药复合体与阿霉素共孵育,构建装载阿霉素药物分子的载药复合体;(3)血清稳定性
当前我国校园足球事业正处于快速发展阶段,校园足球比赛受到了社会各界广泛的关注,作为校园足球赛事的执法者和管理者,校园足球裁判员需要具备什么样的能力和素质才能更好地为校园足球事业的发展服务成为本次研究重点。胜任特征理论是管理学和心理学方面应用较为广泛的一个理论,它主要被应用于公共管理和人力资源开发领域。本文通过文献资料法和行为事件访谈法提炼出我国中、小学校园足球裁判员应具备的胜任特征要素并将这些特征
鄂尔多斯高新区成立于2011年,经过六年的不懈努力,于2017年2月经国务院批复升级为国家高新区,实行现行的国家高新技术产业开发区的政策,成为鄂尔多斯市第一家、自治区第三家国家高新区。作为全国最年轻的国家级高新区,鄂尔多斯高新区承载着鄂尔多斯市推动经济结构调整优化、促进产业转型升级、实现经济高质量发展的重任。但受全球经济增速放缓,自身发展基础比较薄弱,区域同质化竞争激烈等、自身发展受到资源环境约束
随着经济的发展和社会的进步,银行金融服务机构也取得了全面发展,当前银行金融服务机构也面临着严峻的市场竞争形势,加强基层国库监管,切实发挥基层国库职能,是当前摆在有关
异常检测(Anomaly Detection)是数据挖掘中的重要部分。大数据背景下,数据的维度成“爆炸式”增长,这对高维数据异常检测的需求量也急剧增加。深度神经网络(Deep Neural Netw