论文部分内容阅读
流程挖掘是从事件日志中提取流程模型的过程。由于在线流程挖掘中的流程处于不稳定的状态,导致挖掘到的流程模型随时可能发生变化,这种现象被称为流程挖掘中的概念漂移。概念漂移的研究主要集中于漂移的检测与表征,即确定流程是否发生漂移并描述漂移前后流程的变化。目前的研究大多对活动关系定性分析,只能确定活动关系存在或不存在,活动关系一旦判断错误,可能导致一些正常的变化被误解为概念漂移。另外目前的特征提取方式缺少对活动和活动关系频次的考虑,无法处理业务流程中的噪声。对于漂移表征,现有的方法表征能力不足,只能描述基本的关系结构变化。针对上述问题,本文提出了一个基于启发式度量的概念漂移检测与表征(Heuristic-based Concept Drift Detection and Characterization,HCDDC)框架。框架的主要内容如下:(1)提出了一个基于启发式度量的流程路径特征提取算法。该算法使用启发式度量从案例的层次上提取特征,启发式度量可以对不同的活动关系定量分析,使用数值的大小表示活动之间的依赖程度,这样活动关系依赖值不容易发生突变,可以解决概念漂移的误检测问题。另外启发式度量考虑了活动和活动关系的频次,可以避免噪声对检测结果的影响。(2)提出了一个基于启发式度量的概念漂移检测方法。该算法对于不同的活动对,分别分析连续窗口上的特征分布差异,对每个活动对都能获得潜在的漂移点,提高了概念漂移被发现的概率,权衡了概念漂移的误检测与漏检测现象。(3)为了更好地表征漂移的性质,本文定义了多种关系模式,通过关系模式的变化来描述流程的变化。框架中提出了一个基于关系模式的概念漂移表征算法。该算法能够将启发式度量的特征值转换为关系模式,得到漂移表征结果。本文设置了三个实验来分析HCDDC的概念漂移检测方法的有效性。首先分析了不同流程路径子日志的大小对于检测结果的影响。之后将启发式度量的检测方法分别与runs度量和α+度量的检测方法进行对比,启发式度量在流程路径窗口足够大,能够准确提取特征信息的情况下,检测准确率可以达到96%,要高于其他的检测方法。从检测精准率的对比实验中可以发现,HCDDC的漂移检测方法相比其他方法概念漂移的误检测现象更少。从噪声对于检测结果的影响实验中发现,启发式度量相对于α+度量具有更好的抗噪声能力。关于概念漂移表征实验,本文模拟了直播业务流程相关的事件日志,HCDDC的漂移表征方法能够描述出其中关键模式的变化。