【摘 要】
:
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行
【机 构】
:
中国矿业大学物联网(感知矿山)研究中心,矿山互联网应用技术国家地方联合工程实验室,中国矿业大学信息与电气工程学院
【基金项目】
:
国家自然科学基金(41302203)
论文部分内容阅读
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,
其他文献
以评促建是高校规范教学管理、提高教学水平的有效手段之一。文章介绍了广州城市职业学院以专项评估为抓手建立以评促建长效机制的实践与成效。
<正>向传统致敬,下民间创作的"韩美林艺术大篷车"坚持了四十年。初秋,结束"三江源"创作采风后抵达杭州,10月18日来到熊开波陶艺工作室参观指导并进行陶瓷盘刻画创作。笔者作
<正>今年以来浙江温州等地一些中小企业经营困难、借贷无门。面对发展中的沟沟坎坎,如何解决企业实际困难和深层次矛盾?日前在杭州召开的首届世界浙商大会上,与会代表给出了
随着我国经济的迅猛发展,电力事业不断向前推进,工业生产和人们的生活对电能的需求量不断增加。为保障我国电力运行的平稳性和安全性,需要做好变电站的施工质量控制工作。主
为提高焊接效率,改善焊接质量,对焊接机器人焊接工艺参数与空间轨迹进行联合规划,提出一种实时性高、可控性强、焊接误差小的轨迹规划方法。通过在执行器末端增加虚拟关节,建
1 剪除病虫枝有些病虫害在果树芽、枝、叶上越冬,如苹果白粉病以菌丝在枝梢上越冬,苹果炭疽病以菌丝形态在枝条上越冬。为了防治此类病虫害,可在冬季剪除病虫枝条,剪除后及时涂84
在铅酸电池正极铅粉中加入一定量的四碱式硫酸铅(4BS),按照工业化的操作工艺,制备出原料中4BS含量不同的正极板,并与常规负极板组装成小电池。对正极的初始容量和循环寿命等
汽车半轴在汽车运行中受力复杂,易损坏引发安全事故。针对标致307前驱动半轴所发生的突然断裂,分析了半轴断裂的机理,并从设计、制造和结构方面阐述了断裂失效的可能性,进而判定
民国年间,鄱阳湖区域发生了大规模的血吸虫病瘟疫。面对瘟疫,鄱阳湖疫区社会整体缺乏责任感、道义感和正义感,社会各阶层基本处于恶性互动之中,未能建立起通力合作的严密的瘟
生态文明建设要求我国既有取水权制度必须进行生态化转型。然而,我国取水权制度生态化转型建设具有复杂性与跨学科性两大难题。因此,有必要运用民法学、行政法学以及环境法学