基于Spark分布式的关联挖掘优化研究与综治决策应用

来源 :东华理工大学 | 被引量 : 5次 | 上传用户:vict1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着社会信息化的快速发展,大数据的发展态势也同时趋于稳定性的增长。其中,数据规模的庞大和类型的多样化,必然隐含着潜在的知识信息。当今,大数据领域里依然存在着“数据量丰富,知识度匮乏”的问题。尽管近几年的一些学者提出了知识库发现的相关研究,但依然无法满足日益剧增的复杂性需求。因此,如何将庞大的数据资源转化成有价值的信息,如何有效的提升知识发现的效率,如何扩展大数据分析技术的研究领域,成为当今亟须解决的热点性问题。针对这些问题,提出了基于Spark的计算引擎,对关联规则挖掘算法进行结构优化,并将改进策略集成于分布式计算架构,同时能够解决实际性问题。论文的主要研究内容具有如下四个部分:首先深入研究了关联规则的相关理论,针对传统算法的不足,确定优化思路。其中引入唯一Prime理论,通过Prime映射将事务集数据化,提升压缩率。摒弃传统的HeadTable模式,规避了多次排序和频繁模式基递归构建的时间消耗。同时构建一种新规则树:PNFP-Tree,并以GCD(最大公约数)模式深度挖掘出频繁项。针对Tree的规模问题,提出了向量剪枝与矩阵压缩的方式,优化整体挖掘效率。其次,提出了一种基于分布式的权值均衡分组优化策略,这与并行化计算模型不同,其利用节点权重预估概率、候选序列集长度以及剩余压缩树大小计算模型将任务划分,切分后的子树具有独立性,并进行子任务的GCD模式挖掘,有效解决了节点计算不均衡的问题,进而减少节点间的Shuffle开销,同时也不影响最终挖掘结果集。相较于Hadoop的MapReduce,Spark更适合于迭代式计算,进而提出一种基于Spark分布式的PNFPM算法。考虑到实际情况下海量数据集的随动性,采用一种DDS(动态流式数据)的模式进行周期性分块挖掘技术。实验结果得出PNFPM算法较于传统算法更优。最后为扩展大数据分析的研究领域,以及验证PNFPM算法的实用性与兼容性,设计并实现基于Spark的PNFPM算法,应用在综治工作下的网格化事件分析决策功能模块。将PNFPM算法与多准则决策方法集成,获得高度决策的预警结果。实验结果表明,基于Spark的PNMFP算法具有可行性、高效性以及可扩展性,同时也说明了不仅仅只能应用在商业挖掘上,而且也能在政务领域上进行高效的挖掘分析。
其他文献
<正>记者从国家林业局获悉:联合国粮农组织(FAO)近期公布的2015年全球森林资源评估结果显示,2010?2015年,中国是世界上净增森林面积最多的国家,年均增加154.2万公顷。2015年
本文采用了国际上通行的项目经济分析评价方法,并结合林业行业的特点,从财务效果和对国民经济的贡献来分析评价安徽省利用世界银行贷款NAP、FRDPP造林项目的经济效益。通过编制
为研究碱式硫酸铝再生法解吸SO2的最佳工艺条件,考察了加热条件下解吸时间、解吸液初始SO2浓度和解吸温度对SO2解吸过程的影响。实验结果表明,解吸液初始SO2浓度为16~20g/L,
文章以档案公共服务绩效评估的目标,对评估中的误区进行剖析,从而提出确立以公众参与为主体的多元化评估模式、构建软硬指标相结合的评估指标体系、完善以公众为本的制度保障
<正>水是人类赖以生存、不可缺少的重要物质,它与蛋白质、脂肪、糖类、维生素和矿物质元素并称为"六大营养素"。人可一日无食但不可一日无水,由此可见,水对于人体的生理作用
实践教学在提高教育教学质量中起着至关重要的作用,即使是实物实验条件良好,仿真实验也会由于存在显著的便利性和独特的优势而日益成为培养学生实践能力的重要手段之一.本文
目的实现对热带水果生产流通环节的质量安全追溯,规范企业生产管理,提高消费者最终知情权,加强政府监管。方法在研究二维码技术的基础上,通过研究分析热带水果生产与流通环节
简单而言 ,购物动机就是直接推动顾客产生购买行为的驱动力。人们具有理性的购物动机 ,但其购买决定往往却是非理性的。购物动机是带有感性色彩的。可分为求新动机、求美动机
分别采用REBO势和AIREBO势对单层和多层石墨烯的弛豫性能进行了分子动力学模拟,模拟了石墨烯在弛豫过程中的动态平衡演化过程.模拟结果表明,理想的自由状态下,单层石墨烯薄膜
通过运行保障条件、机组用能特点、驱动方式考虑因素、实际应用情况等角度,对煤化工项目配套大型空分机组的电机驱动和蒸汽驱动2种方案进行比较研究。在已有工程项目数据基础