基于并行计算的流程对象知识发现系统的研究与实现

来源 :济南大学 | 被引量 : 2次 | 上传用户:ziguangguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流程工业在生产的过程中会积累大量的检测数据,对这些数据进行知识发现将对工业生产和控制过程产生有意义的指导。在分析了流程工业生产过程的几大特点之后,课题组提出了流程对象抽象模型,并基于此提出了名为Time series-Clustering-Association-Chain/Tree Flow(简称为T-C-A-C/T Flow)的知识发现模型,本文的研究正是基于该已有的原始算法模型。T-C-A-C/T Flow模型首先对生产过程的环节数据进行预处理并对各环节的时序进行发现和调整,接着对环节数据进行聚类以减少离散状态数,在聚类基础上对不同环节数据进行二项关联规则生成,二项关联规则通过关联度合并为关联链/关联树,并最终统计生成环节状态之间的关联链,以此作为知识发现的最终结果以用于辅助人们决策。时序发现在整个算法模型中的作用是至关重要的,原始算法模型中采用了基于统计极值的时序发现方法,该方法具有较高的计算效率,但由于极值易受噪音和采样影响,该方法的准确度并不理想。同时,由于实际生产中的数据量巨大并且该知识发现模型包含了比较耗时的迭代型数据挖掘算法,串行化计算方案将导致系统运行缓慢,从而大大降低系统的实用性。为此,本文在对原始算法流程进行了针对性改进之后,对整个算法流程进行了并行化设计与实现,以提升知识发现的准确性与实时性。针对原始算法流程的若干不足,本文对其进行了有针对性的改进。首先,针对环节数据之间度量单位以及数据波动范围的不同,本文对环节数据进行了基于Z-score的数据归一化处理,归一化之后的数据也方便了后续的可视化分析。其次,本文提出了基于Pearson相关系数曲线的环节时序发现方法,该方法针对每一个时间延迟计算两环节数据的Pearson相关系数,并将其中最大相关系数对应的时间延迟作为两环节的相对时间延迟,经实验分析该方法具有很高的准确度。这些有针对性的算法改进有效地提升了知识发现结果的准确性和有效性,这对流程工业知识发现理论和实际生产应用都将具有重大意义。接下来本文针对改进之后的算法模型,进行了基于Spark的并行化设计。针对并行计算中的瓶颈环节——数据通信,提出了边界数据处理方法,有效地减少了并行计算中不同计算节点之间的数据通信量,该方法在系统的多个并行化算法中被使用到。整个系统的并行化设计包含了数据预处理、时序发现与调整、环节聚类、关联分析以及状态关联这几大步骤。最终,本文基于Spark框架以编程的方式实现了该知识发现模型的并行化系统,经过测试对比和分析得出该并行化设计与实现较串行化有了较大的效率提升。并行化的设计与实现加速了知识发现过程,减少了人们等待时间,使计算结果可以更快的应用于指导实际生产,时效性的提升无疑大大增加了系统的实用性。
其他文献
本文主要研究数字地图的水印技术,针对矢量和栅格两种数据格式。首先,在分析矢量地图自身特点的基础上,根据其特点和鲁棒性要求,得出一种基于DCT变换的矢量地图数字水印算法,该算
移动传感器网络作为一种新型信息获取和处理技术,具有静态传感器网络无法比拟的优势,在国防军事、城市管理、环境监测、医疗卫生、家居及商业等领域均有广阔的应用前景。移动节
信息技术的快速发展,已经让web成为一个庞大的信息源,用户准确从web获取所需要的信息的必要手段是信息抽取,如何快速准确地从web文档中查询到人们感兴趣的信息成为必须认真对待
随着微电子技术、嵌入式技术和无线通信技术的迅猛发展和日益成熟,无线传感器网络已成为互联网应用领域中的研究热点。由于传感器节点自身的准确定位是无线传感器网络监测活
教育并不局限于学校教育,更重要的是儿童成长发育过程中身心健康成长的教育。通过大量相关文献的阅读和研究发现,儿童敏感期研究领域中存在着大量潜在的知识数据,有很高的研
等几何分析是一种基于CAD模型的几何的精确表示来进行模拟分析的新型技术,它的提出为实现CAD/CAE的无缝融合提供了新思路首先,本文对等几何分析的产生背景特点研究现状和热点问
无线Mesh网络(Wireless Mesh Network,WMN)是一种宽带无线网络结构,也可以看成是MANET和WLAN的结合体。在WMN中,随着网络拓扑逐渐复杂、节点数目逐渐增多,其网络性能可能会随之下降
随着高清摄像技术以及图像处理技术的快速发展,视线追踪系统的相关研究在最近几年取得了长足的进步。参考点光源等辅助手段的引入,有效提高了系统的精确度以及对使用者头部移动
随着社会经济的发展,水泥在世界范围内被广泛应用,已经成为基础建设中必不可少的建筑材料,并且需求量越来越大,同时水泥的高质量和高性能也越来越受关注。从微观上来看,水泥
曲面网格参数化与四面体网格参数化是处理三维体网格的一个关键问题。曲面三角网格参数化是实现纹理贴图的基础;体网格的参数化是信息重用、形状匹配与分析、网格的重构以及