RDD上扩展索引层优化的分布式K-means算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:pioneerp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K-means是经典的聚类算法,为了适应大规模数据,很多研究利用分布式计算提高其扩展性。但传统基于磁盘的分布式系统仍然存在大量I/O消耗,在基于内存的Spark系统上实现,在继承Spark平台低读写消耗和良好容错性等优点的基础上,扩展了Spark的机器学习MLlib库,在此之上增加一个索引层,引入包含多种策略的基于RDD的双级索引机制,采用新的数据划分方式,对空间距离相近的点的信息进行预处理,利用索引存储其对应的点集的概括信息,以便在K-means算法中对搜索空间剪枝,从而达到对K-means算法的优化。
其他文献
在布料建模领域,如何快速模拟布料形变之后的褶皱细节是研究的热点。通过使用多精度布料建模方法,在布料的不同形变区域使用不同精度的网格,可以有效平衡建模的精度和速度,已
在加权网络中,节点之间的边权值代表节点之间联系的紧密程度,节点的度表示该节点的邻居个数。为了有效抑制加权网络中的病毒传播,提出一种考虑边权和度的熟人免疫策略(AI-CWD
当前计算机网络技术的不断发展,为汽车领域提供技术性支持,为汽车的安全性能提供有效保障。文章对汽车电气系统进行概述,并从模块功能和结构两方面对信息化平台进行研究,通过
针对杂波环境下伽玛高斯逆威舍特混合势概率假设密度(GGIW-CPHD)滤波器难以有效提取衍生扩展目标的问题,提出采用多假设对衍生目标建模跟踪的方法。算法利用随机矩阵模型对扩
临澧县是个典型的丘陵县,全县有耕地面积55.7万亩(1亩=667m~2,下同),山林面积69.8万亩。前些年,随着国家对农业机械化的重视和政策支持,农机新技术、新机具的推广应用,农机化水
党的中央提出了构建社会主义和谐社会战略规划,民主、法治是和谐社会的首要特征和政治保证。教育在促进民主法治目标实现过程中发挥着重要功能。但目前教育存在一些问题,需认
期刊
司法部门限制媒体的宪法性权利是不当的,但对其内部成员做出适当限制是必要的    近日浏览网络查阅邱兴华案的相关资料,吃惊地发现,在邱案二审评议即将做出判决之际,参加此案一审审理的法官王晓发表了一篇《我主审的邱兴华杀人案》(《法律与生活》半月刊2006年11月下半月刊)的文章,并被各大网站转载,成为点击率很高的热门文章。  从法理和实践来看,司法向媒体开放是公开审判的大趋势,允许媒体报道甚至允许庭审
期刊