【摘 要】
:
针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程
【机 构】
:
东北大学秦皇岛分校计算机与通信工程学院,东北大学信息工程学院
【基金项目】
:
国家自然科学基金项目(61070162,71071028)
论文部分内容阅读
针对目前聚类算法对大数据处理效率较低的问题,研究云平台上高效并行化的聚类算法十分必要。在HDFS分布式文件系统基础上,设计一种并行聚类算法P-ISODATA,利用MapReduce编程框架的执行机制将传统ISODATA聚类算法并行化,并在Map阶段之后加入Combine阶段以减少网络传输开销,进一步提高执行效率。实验从著名UCI机器学习库上选取若干数据集作为测试数据,分析了新并行算法P-ISODATA性能,结果表明基于P-ISODATA算法具有优良的加速比、数据伸缩率和扩展率,可以有效地应用于大规模数据的处理。
其他文献
<正>一九五○年,著名艺术史家、纽约现代艺术博物馆首任馆长阿尔弗雷德·巴尔(Alfred Barr)选择杰克逊·波洛克(Jackson Pollock)、威廉·德·库宁(Willem de Kooning)和阿什
采用自拟活血通络镇痛汤为基础方治疗顽固性头痛 86例 ,结果治愈 5 3例 ,有效 2 8例 ,无效 5例 ,总有效率 94%
<正>辛亥革命推翻帝制,实行共和,社会意识形态发生了巨变,而北京时局也先后经历了数次政权交叠之变。这种多变的时局是政客的舞台,同时也是社会活动家、慈善家乃至宗教家的舞
成长是人类社会生活中广泛存在的文化现象,同时也是人类个体实现自我价值的重要生命体验。在现当代文学史上,作家在进行文学创作时经常聚焦于人类成长和个体发展的永恒命题,
【目的】研究中国西北地区日光温室膜下滴灌番茄不同种植行距与灌水量对番茄各品质指标的影响,提出番茄综合品质最优时的种植行距与灌水量组合,为本地区日光温室番茄的栽培管
通过建立以货币数量理论为理论基础的货币供应量与通货膨胀率二者的关系模型,根据2011至2014年各月的M2以及CPI数据,利用计量分析的方法,分析得出货币供应量对CPI存在影响的
提出一种具有较高可懂度的基于维纳滤波的语音增强算法。相比于其他语音增强算法,维纳滤波法可以明显提高语音质量且含有较少的音乐噪声,但是它和其他现有语音增强算法一样,
简述了我国TFT-LCD基板玻璃市场现状,TFT-LCD基板玻璃主要成分与理化性能,以及对比3种主流制造工艺的主要技术指标,提出G8.5及以上高世代基板玻璃是国内企业无法生产的,应重
本文拟从文艺审美分析的角度对唐诗里的和谐意味作一番考查,力求从多方面从细微处探究唐朝诗歌思想内涵之刚健中和、内容风格之本真自然、艺术世界之精妙动人,而这几方面又都
<正> 在杂交瘤细胞的研究中,培养基中的血清常会干扰单克隆抗体(McAb)的测定,由于血清所含成份复杂,动物个体差异较大,故使用前还须进行严格的筛选。血清还经常是污染的来源