论文部分内容阅读
随着云计算与数字信息化在各个行业的普及,实时监控系统被广泛应用,系统中会不断地产生各种类型的事件信息。这些事件通常单体价值较低,但是如果将其聚合在一起并通过特定规则加以分析,则可以产生很多有价值的信息。由于多数实时数据的价值会随时间的推移而递减,这就要求实时系统需要准确并高效地根据检测规则识别事件流中的目标信息。复杂事件处理技术的目标是及时、准确地检测出事件流中的符合特定模式的事件序列,可以满足实时事件检测系统的需求。复杂事件处理是支持大数据处理的流式计算平台的核心技术之一。它以事件驱动的思想,根据事件间的时序关系与聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,并且需要适应海量数据处理中低时延高吞吐量的性能需求。目前许多科研工作者提出了各种复杂事件处理语言与复杂事件处理引擎,这些语言的事件检测能力或多或少具有局限性,并且多数处理引擎只支持单机执行环境,无法利用集群中更多的计算资源,具有性能瓶颈。为增强分布式环境下的复杂事件检测能力,设计了一种新型的复杂事件处理处理语言CEStream。该语言以半结构化流数据作为数据模型,为复杂事件检测提供了一种正规树模式匹配功能,支持结构连接和正规式匹配。同时,针对分布式的多个事件流,能够将各个事件源模式匹配的结果按照时间顺序再一次进行正规式模式匹配,满足多源组合型复杂事件的检测需求,具有较强的事件处理能力。为了实现CEStream语言,研制了一个基于流数据处理集群和远端查询代理的分布式执行引擎系统。该系统通过远程查询代理实现基于正规树模式的事件检测,通过流处理集群完成多源组合型复杂事件处理。实验表明该系统实现了CEStream语言,有效地限制了各个节点之间的通信量,充分利用集群的计算能力,事件检测能力与整体性能达到了复杂事件处理技术的目标,能够满足实时事件检测系统的应用需求。