论文部分内容阅读
针对已有的多数据源数据挖掘考虑更多的是事务数据库中关联规则的挖掘,而针对多源决策信息系统中的决策规则挖掘则很少深入研究。在数据量爆炸性增长的大数据时代,数据的采集和存储逐渐呈现出多源异构的特点。针对高维多源异构数据的存储特点,采用集中式处理很难达到特定的需求效果,而且面临数据格式不一致,数据传输量大以及数据隐私泄露等问题。因此,通过在不同数据源中挖掘局部决策规则来生成全局决策规则的方式,为解决多数据源知识发现提供了新的方法。同时,通过定义多个度量指标,可以有效度量多源信息系统中的高投票决策规则、例外决策规则等有实际意义的决策规则。本文将基于邻域粒化的思想,给出决策规则的形式化定义,从不同实际应用出发设计了多源决策信息系统中高投票决策规则、例外决策规则、以及全局决策规则的挖掘模型与算法,最后通过实验有效地验证了所提算法的有效性。本文首先介绍了多相关事务数据库中模式挖掘的研究现状,并对相关技术做了分析与比较,介绍了邻域粒化、大间隔、规则学习等相关基础理论。然后,以邻域粒化为基础,研究关于多源决策信息系统中各类决策规则的挖掘,本文主要研究成果如下:(1)利用样本邻域粒化来构建决策规则的表现形式,在此基础上定义了覆盖度、投票数等多种度量指标,用以挖掘满足这些度量指标的高投票决策规则,实验结果验证了所提算法能有效地挖掘多源决策信息系统中的高投票决策规则。(2)通过样本邻域粒化来构建决策规则的表现形式,在此基础上定义了覆盖度、投票数、重要度和例外偏离度等多种决策规则的度量指标,挖掘满足上述度量指标的例外决策规则。实验结果演示了多源决策信息系统中例外决策规则的挖掘过程和结果。(3)根据样本邻域粒化提出了决策规则的一般表现形式。在此基础上,基于数据源间的一致性度量每个数据源的权重。最后,构建了通过合成局部决策规则来挖掘全局决策规则的模型。大量实验结果表明所提的决策规则合成模型是有效且可拓展的。