论文部分内容阅读
数据是当今信息社会最宝贵的一种资源,发现隐藏在那些复杂数据集中的有用知识并利用这些知识已经成为科学决策的前提。数据挖掘就是运用基于计算机的智能技术从大量甚至海量数据集中获取知识的过程,它通过关联规则、分类与聚类等方法实现从数据集中挖掘出潜在的有用知识。离群数据是那些与众不同的远离常规数据对象的数据,它们表现为与多数常规对象有明显差异,以至于被怀疑可能是由另外一种完全不同的机制产生的。离群数据不等同于错误数据,有的离群数据中可能蕴含着极重要的信息,如在信用卡欺诈检测、疾病诊断、网络入侵检测、通信欺诈分析、故障检测、灾害预测等诸多领域中离群点是数据分析的主要对象,在所有的科学研究领域,离群数据可能给予我们新的视角,从而导致新理论或新应用的出现,因此,对离群数据进行研究具有十分重要的意义。已有离群数据研究主要集中于离群数据挖掘,而且其挖掘的目的也仅仅是为了通过去除被发现的离群对象获得更好质量的数据集,力图为常规数据挖掘与分析提供更稳定可靠的结果,较少涉及对已发现的离群数据的进一步分析。本文认为对离群数据的研究包括离群挖掘与离群分析两个方面。论文的主要贡献是:以现有的离群挖掘算法为基础,重点对高维稀疏离群数据集的分类、产生来源、含义、特征以及离群趋势等进行分析,结合粗糙集(Rough Set)理论定义了离群数据关键域子空间(Key Attribute Subspace, KAS)等一系列概念,提出了相应的离群约简及关键域子空间搜索算法、离群聚类算法、缺失值处理及离群趋势分析方法等,建立了高维稀疏离群数据集特征描述及延伸知识发现的整体框架。作为一项具有创新性意义的工作,论文在研究方法与思路上力求有所突破,其主要研究成果包括如下几个方面。①对离群挖掘技术进行了较为全面的分析与总结,设计了一种基于k-最近邻的离群检测算法,介绍了基于分区的离群挖掘算法,详细分析与设计了基于似然的一元离群检测算法以及多元回归分析离群检测法等多种基于统计的离群检测方法,并从离群挖掘的角度探讨了聚类算法中对离群对象的处理技术,分析了不平衡分类及非频繁模式关联规则挖掘与离群检测的相似性。②结合粗糙集理论以离群划分的观点去揭示离群对象子空间特性,提出了离群划分相似度、离群约简等概念,其目的是寻找一个范围较小的属性子集,从这个子集中去探索离群数据集的出现原因和概率。提出的基于遗传算法(Genetic Algorithm)的离群约简技术可以较好地解决离群约简搜索问题。③对提出的离群对象关键域子空间KAS的意义、作用及搜索方法进行了深入地研究。基于KAS将缺失值、普通离群点与噪声统一为离群对象,认为具有非空KAS的离群点均蕴含了一定的知识,是普通离群点,而不存在对应KAS的离群点是噪声。提出了离群包络与离群核、属性值离群状态矩阵等概念及相应的一系列KAS搜索算法,包括基于统计的、基于显著域子空间的单个离群对象KAS搜索算法,以及基于离群核、基于离群属性频度、基于统计的离群集KAS搜索算法,并对算法性能进行了分析与测试。④根据离群共享属性定义了离群簇,提出了簇数量、簇对象数以及相似度等离群聚类三原则,并在此原则基础上提出了基于KAS和基于离群邻接图的离群聚类算法,对算法的分类能力与性能进行了测试与比较。在离群簇分析方面,提出了离群数据的内、外及单关键域子空间分析方法以及基于离群K-最近邻的离群分析技术,并可从离群最近邻与离群簇的相互关系中获取知识。⑤含缺失值的对象作为一种特殊离群对象进行研究,提出了一种基于灰预测模型GM(1,1)的序列缺失数据灰插值推理方法,该算法在估计每一个缺失值时均会充分利用其时区窗口内全部信息,并建立对插补值的误差修正模型,从而可以获得性能较好的插补效果。⑥对序列数据离群趋势进行了分析,提出了原子离群类及离群变异类等概念,研究了这两种离群类数据一般特性,给出了对象离群概率估计方法,并结合关键域子空间对属性离群频度进行了预测。