基于分布式协调系统的并行频繁模式增长算法的优化

来源 :计算机科学 | 被引量 : 0次 | 上传用户：xixicoco606

【摘要】

：

频繁模式挖掘可以发现数据中频繁出现的模式，是关联规则挖掘的重要步骤。并行频繁模式算法将其应用到并行环境中，以对海量数据进行挖掘。在Apache软件基金会的Mahout项目实现的

【作者】

：

王洁戴清灏李环

【机构】

：

首都师范大学管理学院,中国科学院计算技术研究所

【出处】

：

计算机科学

【发表日期】

：

2012年3期

【关键词】

：

频繁模式增长算法并行数据挖掘分布式协调系统性能优化 Frequent pattern growth algorithm Parallel data mi

【基金项目】

：

本文受国家信息安全测评中心项目（CNITSEC-KY-2007-22）资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

频繁模式挖掘可以发现数据中频繁出现的模式，是关联规则挖掘的重要步骤。并行频繁模式算法将其应用到并行环境中，以对海量数据进行挖掘。在Apache软件基金会的Mahout项目实现的基础上，对计数和排序阶段以及算法的执行顺序提出了新的优化策略。优化后的设计将计数信息存储在分布式协调系统上，充分地利用了分布式协调系统的高可用性、适宜存储元数据信息的特点。该设计减小了小文件在分布式文件系统（HDFS）上的开销，同时保留了其优点，还能使计数过程和排序过程并行执行，减小了计算节点的内存开销。对比了文件系统I／O的开销，

其他文献

基于模态的嵌入式软件动态重构技术研究

机载航空电子系统设计采用综合化系统体系结构,可实现计算系统及其计算资源和计算设施的＂物理集成＂;以及机载嵌入式软件系统的＂功能集成＂;提供对系统计算功能的动态配置管理和实

期刊

软件体系结构动态重构模态Software architecture Dynamic reconfiguration Mode

基于情景演算的动态访问控制模型

访问控制模型定义了安全系统访问控制的整体框架。现有的访问控制模型大多是静态授权模型,尽管可以通过扩展来实现局部动态性（比如可以通过定义条件来实现角色的临时激活等）,但

期刊

访问控制模型动态情景演算Access control model Dynamic Situation calculus

基于广义随机着色Petri网的Web服务组合模型

给出了广义随机着色Petri网（GSCPN）和基于GSCPN的Web服务模型,实现了Web服务QoS和数据的表示,并给出了基于GSCPN的服务组合运算方法。用模型的层次化方法来降低模型的复杂性,一

期刊

PETRI网WEB服务服务组合建模Petri net Web service Service composition Modeling

一种有效的提高车牌首字符识别率的方法

针对车牌识别系统中由于低质车牌首字符特征提取困难而导致车牌首字符识别率不高的问题,提出了一种新的车牌汉字特征提取方法。该方法首先对车牌首字符的二值图像进行网格化处理,并对每一块网格区域提取字符笔画所在像素的占空比、散度和质心3个特征分量,接着将提取到的所有的特征向量用支持向量机分类器进行训练,最终可以得到一组鲁棒性很强的分类器。实验结果表明,该特征提取方法与支持向量机分类器结合可以较大地提高车牌首

期刊

车牌识别支持向量机字符识别形状参数License plate recognition Support vector machine Characte

基于复杂系统遗传算法的多路径覆盖测试用例生成方法

针对目前复杂系统多路径覆盖测试用例生成方法较少的问题,提出一种新的基于复杂系统的多路径覆盖测试用例生成方法。首先改进遗传算法,在种群进化中对父代选择、个体进化的学

期刊

复杂系统多路径覆盖测试用例生成遗传算法适应度函数Complex system Multiple paths coverage Test case

时序PLD安全缺陷检测方法研究

可编程逻辑器件（PLD）在电子设备中广泛应用,其安全缺陷检测已成为信息安全领域中一个富有挑战性的课题。通过分析PLD安全缺陷的存在形式,提出了基于状态转移图的安全缺陷检测方

期刊

可编程逻辑器件状态转移图安全缺陷检测Programmable logic device State transition diagram Securi

一种求解多处理机调度问题的α-平坦化调度算法

在分析多处理机调度问题的基础上,提出了α-平坦的概念,并将其引入到多处理机调度问题中;基于此,提出了一种新的基于α-平坦的求解多处理机调度问题的算法。算法首先对作业集

期刊

多处理机调度α-平坦平坦化处理调度算法Multiprocessors scheduling α-flatness Planarization pro

密度加权近似支持向量机

标准的近似支持向量机（PSVM）用求解正则化最小二乘问题代替了求解二次规划问题,它可以得到一个解析解,从而减少训练时间。但是标准的PSVM没有考虑数据集中正、负样本的分布情况

期刊

支持向量机近似支持向量机密度加权不平衡数据Support vector machines Proximal support vector machin

基于分布式协调系统的并行频繁模式增长算法的优化

其他学术论文