基于启发式度量的流程挖掘中概念漂移检测与表征的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:limengwy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流程挖掘是从事件日志中提取流程模型的过程。由于在线流程挖掘中的流程处于不稳定的状态,导致挖掘到的流程模型随时可能发生变化,这种现象被称为流程挖掘中的概念漂移。概念漂移的研究主要集中于漂移的检测与表征,即确定流程是否发生漂移并描述漂移前后流程的变化。目前的研究大多对活动关系定性分析,只能确定活动关系存在或不存在,活动关系一旦判断错误,可能导致一些正常的变化被误解为概念漂移。另外目前的特征提取方式缺少对活动和活动关系频次的考虑,无法处理业务流程中的噪声。对于漂移表征,现有的方法表征能力不足,只能描述基本的关系结构变化。针对上述问题,本文提出了一个基于启发式度量的概念漂移检测与表征(Heuristic-based Concept Drift Detection and Characterization,HCDDC)框架。框架的主要内容如下:(1)提出了一个基于启发式度量的流程路径特征提取算法。该算法使用启发式度量从案例的层次上提取特征,启发式度量可以对不同的活动关系定量分析,使用数值的大小表示活动之间的依赖程度,这样活动关系依赖值不容易发生突变,可以解决概念漂移的误检测问题。另外启发式度量考虑了活动和活动关系的频次,可以避免噪声对检测结果的影响。(2)提出了一个基于启发式度量的概念漂移检测方法。该算法对于不同的活动对,分别分析连续窗口上的特征分布差异,对每个活动对都能获得潜在的漂移点,提高了概念漂移被发现的概率,权衡了概念漂移的误检测与漏检测现象。(3)为了更好地表征漂移的性质,本文定义了多种关系模式,通过关系模式的变化来描述流程的变化。框架中提出了一个基于关系模式的概念漂移表征算法。该算法能够将启发式度量的特征值转换为关系模式,得到漂移表征结果。本文设置了三个实验来分析HCDDC的概念漂移检测方法的有效性。首先分析了不同流程路径子日志的大小对于检测结果的影响。之后将启发式度量的检测方法分别与runs度量和α+度量的检测方法进行对比,启发式度量在流程路径窗口足够大,能够准确提取特征信息的情况下,检测准确率可以达到96%,要高于其他的检测方法。从检测精准率的对比实验中可以发现,HCDDC的漂移检测方法相比其他方法概念漂移的误检测现象更少。从噪声对于检测结果的影响实验中发现,启发式度量相对于α+度量具有更好的抗噪声能力。关于概念漂移表征实验,本文模拟了直播业务流程相关的事件日志,HCDDC的漂移表征方法能够描述出其中关键模式的变化。
其他文献
随着人工智能的飞速发展,机器人同时定位与建图(SLAM)作为智能机器人领域的一个重要研究方向也得到了越来越多的关注。机器人同时定位与建图是机器人应用的核心技术,涉及领域
我国卫星图像识别技术在自然灾害、地表覆盖区域监测、环境资源分布研究等领域应用日趋广泛。卫星云雪图像中的云、雪等区域高光谱特征相似、空间分布特征复杂多变。传统的研
文本分类是自然语言处理中较为基础常见的任务,但由于词向量空间的单一性,使得分类系统不能在不同语言上通用。若分别对每种语言单独训练分类模型,则会导致大量的成本和时间问题;并且分类模型作为监督学习方法,需要大量的训练样本训练模型,而由于不同语言的资源分布不均,使得资源较少的语言无法构建单语言分类模型;另外,主流跨语言词嵌入模型需要依赖成本昂贵的平行语料库,在不同语种间拓展性差。因此,针对以上问题,本文
目前证券监管部门监管上市公司、大多数投资者了解上市公司主要通过信息披露平台这一工具。平台中的股权激励模块依靠信息公开,激发员工积极性,稳定核心专业人才。目前国内很
基于深度神经网络的算法在显著性目标检测方面取得了重大突破。然而,这些算法均受限于相当有限的输入分辨率(即,400×400甚至更低)。几乎没有研究致力于如何直接针对高分辨图
小农户占有资源少、生产成本高、融资能力弱,运用现代生产技术能力不强,难以与现代农业大生产、大物流、大市场的要求相适应,无法与现代农业发展有机衔接、获取经济效益困难
批处理机是一类在满足约束的前提下可以同时处理多个工件的设备,目前已广泛应用于制造业中,例如金属加工、半导体生产、纺织品染整作业等相关领域。近年来,随着研究的深入,随
近年来,随着新零售概念的提出,电商的战火已经从线上蔓延到了线下,而社区便利店已然成为厮杀最激烈的一块阵地。纵观当前中国便利店,无论是传统的日系便利店还是新兴的社区便
并置模式挖掘(Co-location Pattern Mining,以下简称CPM)是基于空间数据集进行数据挖掘的研究。CPM目的是搜索位于空间邻域内频繁关联在一起的对象。在生物学、环境科学、流行病学等领域,挖掘这些模式是非常重要的。然而,由于空间数据集中隐藏了实例之间的关联关系,CPM在计算上具有很大的挑战性。模糊的对象在我们的日常生活中随处可见,比如“青年人”与“中年人”之间就存在模糊性,在这
滑模变结构控制对系统参数的摄动、外界的扰动、系统的不确定性等具有独特、优异的鲁棒性,并且算法简单,一直吸引着诸多学者的研究兴趣。但当系统运动状态到达滑模面后,会在