论文部分内容阅读
伴随着社会信息化的快速发展,大数据的发展态势也同时趋于稳定性的增长。其中,数据规模的庞大和类型的多样化,必然隐含着潜在的知识信息。当今,大数据领域里依然存在着“数据量丰富,知识度匮乏”的问题。尽管近几年的一些学者提出了知识库发现的相关研究,但依然无法满足日益剧增的复杂性需求。因此,如何将庞大的数据资源转化成有价值的信息,如何有效的提升知识发现的效率,如何扩展大数据分析技术的研究领域,成为当今亟须解决的热点性问题。针对这些问题,提出了基于Spark的计算引擎,对关联规则挖掘算法进行结构优化,并将改进策略集成于分布式计算架构,同时能够解决实际性问题。论文的主要研究内容具有如下四个部分:首先深入研究了关联规则的相关理论,针对传统算法的不足,确定优化思路。其中引入唯一Prime理论,通过Prime映射将事务集数据化,提升压缩率。摒弃传统的HeadTable模式,规避了多次排序和频繁模式基递归构建的时间消耗。同时构建一种新规则树:PNFP-Tree,并以GCD(最大公约数)模式深度挖掘出频繁项。针对Tree的规模问题,提出了向量剪枝与矩阵压缩的方式,优化整体挖掘效率。其次,提出了一种基于分布式的权值均衡分组优化策略,这与并行化计算模型不同,其利用节点权重预估概率、候选序列集长度以及剩余压缩树大小计算模型将任务划分,切分后的子树具有独立性,并进行子任务的GCD模式挖掘,有效解决了节点计算不均衡的问题,进而减少节点间的Shuffle开销,同时也不影响最终挖掘结果集。相较于Hadoop的MapReduce,Spark更适合于迭代式计算,进而提出一种基于Spark分布式的PNFPM算法。考虑到实际情况下海量数据集的随动性,采用一种DDS(动态流式数据)的模式进行周期性分块挖掘技术。实验结果得出PNFPM算法较于传统算法更优。最后为扩展大数据分析的研究领域,以及验证PNFPM算法的实用性与兼容性,设计并实现基于Spark的PNFPM算法,应用在综治工作下的网格化事件分析决策功能模块。将PNFPM算法与多准则决策方法集成,获得高度决策的预警结果。实验结果表明,基于Spark的PNMFP算法具有可行性、高效性以及可扩展性,同时也说明了不仅仅只能应用在商业挖掘上,而且也能在政务领域上进行高效的挖掘分析。