高维稀疏离群数据集延伸知识发现研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wang213141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是当今信息社会最宝贵的一种资源,发现隐藏在那些复杂数据集中的有用知识并利用这些知识已经成为科学决策的前提。数据挖掘就是运用基于计算机的智能技术从大量甚至海量数据集中获取知识的过程,它通过关联规则、分类与聚类等方法实现从数据集中挖掘出潜在的有用知识。离群数据是那些与众不同的远离常规数据对象的数据,它们表现为与多数常规对象有明显差异,以至于被怀疑可能是由另外一种完全不同的机制产生的。离群数据不等同于错误数据,有的离群数据中可能蕴含着极重要的信息,如在信用卡欺诈检测、疾病诊断、网络入侵检测、通信欺诈分析、故障检测、灾害预测等诸多领域中离群点是数据分析的主要对象,在所有的科学研究领域,离群数据可能给予我们新的视角,从而导致新理论或新应用的出现,因此,对离群数据进行研究具有十分重要的意义。已有离群数据研究主要集中于离群数据挖掘,而且其挖掘的目的也仅仅是为了通过去除被发现的离群对象获得更好质量的数据集,力图为常规数据挖掘与分析提供更稳定可靠的结果,较少涉及对已发现的离群数据的进一步分析。本文认为对离群数据的研究包括离群挖掘与离群分析两个方面。论文的主要贡献是:以现有的离群挖掘算法为基础,重点对高维稀疏离群数据集的分类、产生来源、含义、特征以及离群趋势等进行分析,结合粗糙集(Rough Set)理论定义了离群数据关键域子空间(Key Attribute Subspace, KAS)等一系列概念,提出了相应的离群约简及关键域子空间搜索算法、离群聚类算法、缺失值处理及离群趋势分析方法等,建立了高维稀疏离群数据集特征描述及延伸知识发现的整体框架。作为一项具有创新性意义的工作,论文在研究方法与思路上力求有所突破,其主要研究成果包括如下几个方面。①对离群挖掘技术进行了较为全面的分析与总结,设计了一种基于k-最近邻的离群检测算法,介绍了基于分区的离群挖掘算法,详细分析与设计了基于似然的一元离群检测算法以及多元回归分析离群检测法等多种基于统计的离群检测方法,并从离群挖掘的角度探讨了聚类算法中对离群对象的处理技术,分析了不平衡分类及非频繁模式关联规则挖掘与离群检测的相似性。②结合粗糙集理论以离群划分的观点去揭示离群对象子空间特性,提出了离群划分相似度、离群约简等概念,其目的是寻找一个范围较小的属性子集,从这个子集中去探索离群数据集的出现原因和概率。提出的基于遗传算法(Genetic Algorithm)的离群约简技术可以较好地解决离群约简搜索问题。③对提出的离群对象关键域子空间KAS的意义、作用及搜索方法进行了深入地研究。基于KAS将缺失值、普通离群点与噪声统一为离群对象,认为具有非空KAS的离群点均蕴含了一定的知识,是普通离群点,而不存在对应KAS的离群点是噪声。提出了离群包络与离群核、属性值离群状态矩阵等概念及相应的一系列KAS搜索算法,包括基于统计的、基于显著域子空间的单个离群对象KAS搜索算法,以及基于离群核、基于离群属性频度、基于统计的离群集KAS搜索算法,并对算法性能进行了分析与测试。④根据离群共享属性定义了离群簇,提出了簇数量、簇对象数以及相似度等离群聚类三原则,并在此原则基础上提出了基于KAS和基于离群邻接图的离群聚类算法,对算法的分类能力与性能进行了测试与比较。在离群簇分析方面,提出了离群数据的内、外及单关键域子空间分析方法以及基于离群K-最近邻的离群分析技术,并可从离群最近邻与离群簇的相互关系中获取知识。⑤含缺失值的对象作为一种特殊离群对象进行研究,提出了一种基于灰预测模型GM(1,1)的序列缺失数据灰插值推理方法,该算法在估计每一个缺失值时均会充分利用其时区窗口内全部信息,并建立对插补值的误差修正模型,从而可以获得性能较好的插补效果。⑥对序列数据离群趋势进行了分析,提出了原子离群类及离群变异类等概念,研究了这两种离群类数据一般特性,给出了对象离群概率估计方法,并结合关键域子空间对属性离群频度进行了预测。
其他文献
本论文研究关联大系统的分散鲁棒控制理论及应用,在概述了分散鲁棒控制理论的发展及现状的基础上,对具有不确定性关联大系统的分散鲁棒状态反馈与输出反馈、分散无源化控制、时
本报告的研究内容主要包括 研究了具有上三角结构的非线性系统的全局镇定问题,针对一类子系统,证明了光滑镇定的可行性,而对于一般的含不确定性的上三角系统,则给出了全局连续
随着信息技术的不断成熟与发展,通信网络作为传输媒介被广泛用于各种控制系统之中,在传统网络控制系统中,控制回路通过现场总线为代表的各种专用控制网络形成闭环。网络控制
最小主元的提取在波束形成、频率估计、曲线/曲面拟合等应用中扮演着重要的角色。作为一个重要的统计分析工具,最小主元分析(MCA)已经被广泛的应用到了信号处理和数据分析领域
时滞系统具有广泛的应用背景,存在于无线传感器网络信号处理、通信系统、网络拥塞控制等许多工程领域中.因而,时滞系统的控制与滤波问题得到了众多学者的关注.但是,这类问题
在虚拟现实遥现遥控系统中,由机器人参与的前端和由人控制的终端需要进行实时交互。但由于数据量庞大以及恶劣的网络传输信道等原因的限制,图像传输往往造成严重的时延,这是虚拟
摘要:为适应社会发展的需求,通识课《基因工程导论》以基因工程技术为基础,涉及克隆、转基因技术及社会伦理等学生感兴趣的内容,旨在通过该课程的学习,使学生对基因工程技术的基本原理、应用及最新研究进展有一定的认识与了解,从而拓宽学生的知识面,激发学习兴趣,促进学生综合能力的提高,为培养新世纪的高级人才打下坚实基础。  关键词:核心素质课;基因工程;教学;改革  中图分类号:G642.0 文献标志码:A